
- Talend 教程
- Talend - 首頁
- Talend - 簡介
- Talend - 系統需求
- Talend - 安裝
- Talend Open Studio
- Talend - 資料整合
- Talend - 模型基礎
- 資料整合元件
- Talend - 作業設計
- Talend - 元資料
- Talend - 上下文變數
- Talend - 作業管理
- Talend - 處理作業執行
- Talend - 大資料
- Hadoop 分散式檔案系統
- Talend - Map Reduce
- Talend - 使用 Pig
- Talend - Hive
- Talend 有用資源
- Talend - 快速指南
- Talend - 有用資源
- Talend - 討論
Talend - 大資料
Open Studio 與大資料的標語是“使用領先的免費開源大資料 ETL 工具簡化 ETL 和 ELT。” 在本章中,讓我們深入瞭解 Talend 作為在大資料環境中處理資料的工具的用法。
介紹
Talend Open Studio – Big Data 是一款免費且開源的工具,可讓您在大資料環境中非常輕鬆地處理資料。Talend Open Studio 中提供了大量的大資料元件,只需簡單地拖放幾個 Hadoop 元件,即可建立和執行 Hadoop 作業。
此外,我們無需編寫大量 MapReduce 程式碼;Talend Open Studio Big data 透過其中提供的元件幫助您完成此操作。它會自動為您生成 MapReduce 程式碼,您只需拖放元件並配置一些引數即可。
它還允許您連線到多個大資料發行版,如 Cloudera、HortonWorks、MapR、Amazon EMR 甚至 Apache。
Talend 大資料元件
下面顯示了 Big Data 下包含用於在 Big Data 環境中執行作業的元件的類別列表 -

下面顯示了 Talend Open Studio 中的大資料聯結器和元件列表 -
tHDFSConnection - 用於連線到 HDFS(Hadoop 分散式檔案系統)。
tHDFSInput - 讀取給定 hdfs 路徑中的資料,將其放入 Talend 架構中,然後將其傳遞到作業中的下一個元件。
tHDFSList - 檢索給定 hdfs 路徑中的所有檔案和資料夾。
tHDFSPut - 將檔案/資料夾從本地檔案系統(使用者定義)複製到給定路徑的 hdfs。
tHDFSGet - 將檔案/資料夾從 hdfs 複製到給定路徑的本地檔案系統(使用者定義)。
tHDFSDelete - 從 HDFS 刪除檔案
tHDFSExist - 檢查檔案是否存在於 HDFS 上。
tHDFSOutput - 將資料流寫入 HDFS。
tCassandraConnection - 開啟到 Cassandra 伺服器的連線。
tCassandraRow - 在指定的資料庫上執行 CQL(Cassandra 查詢語言)查詢。
tHBaseConnection - 開啟到 HBase 資料庫的連線。
tHBaseInput - 從 HBase 資料庫讀取資料。
tHiveConnection - 開啟到 Hive 資料庫的連線。
tHiveCreateTable - 在 Hive 資料庫中建立一個表。
tHiveInput - 從 Hive 資料庫讀取資料。
tHiveLoad - 將資料寫入 Hive 表或指定目錄。
tHiveRow - 在指定的資料庫上執行 HiveQL 查詢。
tPigLoad - 將輸入資料載入到輸出流。
tPigMap - 用於在 Pig 過程中轉換和路由資料。
tPigJoin - 根據連線鍵執行 2 個檔案的連線操作。
tPigCoGroup - 對來自多個輸入的資料進行分組和聚合。
tPigSort - 根據一個或多個定義的排序鍵對給定資料進行排序。
tPigStoreResult - 將 Pig 操作的結果儲存在定義的儲存空間中。
tPigFilterRow - 篩選指定的列,以便根據給定條件拆分資料。
tPigDistinct - 從關係中刪除重複的元組。
tSqoopImport - 將資料從關係資料庫(如 MySQL、Oracle DB)傳輸到 HDFS。
tSqoopExport - 將資料從 HDFS 傳輸到關係資料庫(如 MySQL、Oracle DB)