Talend - 大資料



Open Studio 與大資料的標語是“使用領先的免費開源大資料 ETL 工具簡化 ETL 和 ELT。” 在本章中,讓我們深入瞭解 Talend 作為在大資料環境中處理資料的工具的用法。

介紹

Talend Open Studio – Big Data 是一款免費且開源的工具,可讓您在大資料環境中非常輕鬆地處理資料。Talend Open Studio 中提供了大量的大資料元件,只需簡單地拖放幾個 Hadoop 元件,即可建立和執行 Hadoop 作業。

此外,我們無需編寫大量 MapReduce 程式碼;Talend Open Studio Big data 透過其中提供的元件幫助您完成此操作。它會自動為您生成 MapReduce 程式碼,您只需拖放元件並配置一些引數即可。

它還允許您連線到多個大資料發行版,如 Cloudera、HortonWorks、MapR、Amazon EMR 甚至 Apache。

Talend 大資料元件

下面顯示了 Big Data 下包含用於在 Big Data 環境中執行作業的元件的類別列表 -

Big Data

下面顯示了 Talend Open Studio 中的大資料聯結器和元件列表 -

  • tHDFSConnection - 用於連線到 HDFS(Hadoop 分散式檔案系統)。

  • tHDFSInput - 讀取給定 hdfs 路徑中的資料,將其放入 Talend 架構中,然後將其傳遞到作業中的下一個元件。

  • tHDFSList - 檢索給定 hdfs 路徑中的所有檔案和資料夾。

  • tHDFSPut - 將檔案/資料夾從本地檔案系統(使用者定義)複製到給定路徑的 hdfs。

  • tHDFSGet - 將檔案/資料夾從 hdfs 複製到給定路徑的本地檔案系統(使用者定義)。

  • tHDFSDelete - 從 HDFS 刪除檔案

  • tHDFSExist - 檢查檔案是否存在於 HDFS 上。

  • tHDFSOutput - 將資料流寫入 HDFS。

  • tCassandraConnection - 開啟到 Cassandra 伺服器的連線。

  • tCassandraRow - 在指定的資料庫上執行 CQL(Cassandra 查詢語言)查詢。

  • tHBaseConnection - 開啟到 HBase 資料庫的連線。

  • tHBaseInput - 從 HBase 資料庫讀取資料。

  • tHiveConnection - 開啟到 Hive 資料庫的連線。

  • tHiveCreateTable - 在 Hive 資料庫中建立一個表。

  • tHiveInput - 從 Hive 資料庫讀取資料。

  • tHiveLoad - 將資料寫入 Hive 表或指定目錄。

  • tHiveRow - 在指定的資料庫上執行 HiveQL 查詢。

  • tPigLoad - 將輸入資料載入到輸出流。

  • tPigMap - 用於在 Pig 過程中轉換和路由資料。

  • tPigJoin - 根據連線鍵執行 2 個檔案的連線操作。

  • tPigCoGroup - 對來自多個輸入的資料進行分組和聚合。

  • tPigSort - 根據一個或多個定義的排序鍵對給定資料進行排序。

  • tPigStoreResult - 將 Pig 操作的結果儲存在定義的儲存空間中。

  • tPigFilterRow - 篩選指定的列,以便根據給定條件拆分資料。

  • tPigDistinct - 從關係中刪除重複的元組。

  • tSqoopImport - 將資料從關係資料庫(如 MySQL、Oracle DB)傳輸到 HDFS。

  • tSqoopExport - 將資料從 HDFS 傳輸到關係資料庫(如 MySQL、Oracle DB)

廣告