Talend - 大資料

Open Studio 與大資料的標語是“使用領先的免費開源大資料 ETL 工具簡化 ETL 和 ELT。” 在本章中，讓我們深入瞭解 Talend 作為在大資料環境中處理資料的工具的用法。

介紹

Talend Open Studio – Big Data 是一款免費且開源的工具，可讓您在大資料環境中非常輕鬆地處理資料。Talend Open Studio 中提供了大量的大資料元件，只需簡單地拖放幾個 Hadoop 元件，即可建立和執行 Hadoop 作業。

此外，我們無需編寫大量 MapReduce 程式碼；Talend Open Studio Big data 透過其中提供的元件幫助您完成此操作。它會自動為您生成 MapReduce 程式碼，您只需拖放元件並配置一些引數即可。

它還允許您連線到多個大資料發行版，如 Cloudera、HortonWorks、MapR、Amazon EMR 甚至 Apache。

Talend 大資料元件

下面顯示了 Big Data 下包含用於在 Big Data 環境中執行作業的元件的類別列表 -

下面顯示了 Talend Open Studio 中的大資料聯結器和元件列表 -

tHDFSConnection - 用於連線到 HDFS（Hadoop 分散式檔案系統）。
tHDFSInput - 讀取給定 hdfs 路徑中的資料，將其放入 Talend 架構中，然後將其傳遞到作業中的下一個元件。
tHDFSList - 檢索給定 hdfs 路徑中的所有檔案和資料夾。
tHDFSPut - 將檔案/資料夾從本地檔案系統（使用者定義）複製到給定路徑的 hdfs。
tHDFSGet - 將檔案/資料夾從 hdfs 複製到給定路徑的本地檔案系統（使用者定義）。
tHDFSDelete - 從 HDFS 刪除檔案
tHDFSExist - 檢查檔案是否存在於 HDFS 上。
tHDFSOutput - 將資料流寫入 HDFS。
tCassandraConnection - 開啟到 Cassandra 伺服器的連線。
tCassandraRow - 在指定的資料庫上執行 CQL（Cassandra 查詢語言）查詢。
tHBaseConnection - 開啟到 HBase 資料庫的連線。
tHBaseInput - 從 HBase 資料庫讀取資料。
tHiveConnection - 開啟到 Hive 資料庫的連線。
tHiveCreateTable - 在 Hive 資料庫中建立一個表。
tHiveInput - 從 Hive 資料庫讀取資料。
tHiveLoad - 將資料寫入 Hive 表或指定目錄。
tHiveRow - 在指定的資料庫上執行 HiveQL 查詢。
tPigLoad - 將輸入資料載入到輸出流。
tPigMap - 用於在 Pig 過程中轉換和路由資料。
tPigJoin - 根據連線鍵執行 2 個檔案的連線操作。
tPigCoGroup - 對來自多個輸入的資料進行分組和聚合。
tPigSort - 根據一個或多個定義的排序鍵對給定資料進行排序。
tPigStoreResult - 將 Pig 操作的結果儲存在定義的儲存空間中。
tPigFilterRow - 篩選指定的列，以便根據給定條件拆分資料。
tPigDistinct - 從關係中刪除重複的元組。
tSqoopImport - 將資料從關係資料庫（如 MySQL、Oracle DB）傳輸到 HDFS。
tSqoopExport - 將資料從 HDFS 傳輸到關係資料庫（如 MySQL、Oracle DB）

列印頁面