
- Talend 教程
- Talend - 首頁
- Talend - 簡介
- Talend - 系統需求
- Talend - 安裝
- Talend Open Studio
- Talend - 資料整合
- Talend - 模型基礎
- 資料整合元件
- Talend - 作業設計
- Talend - 元資料
- Talend - 上下文變數
- Talend - 作業管理
- Talend - 處理作業執行
- Talend - 大資料
- Hadoop 分散式檔案系統
- Talend - Map Reduce
- Talend - 使用 Pig
- Talend - Hive
- Talend 有用資源
- Talend - 快速指南
- Talend - 有用資源
- Talend - 討論
Talend - Hive
在本章中,讓我們瞭解如何在 Talend 上使用 Hive 作業。
建立 Talend Hive 作業
例如,我們將把 NYSE 資料載入到 Hive 表中並執行一個基本的 Hive 查詢。右鍵單擊“作業設計”並建立一個新的作業 - hivejob。填寫作業詳細資訊,然後單擊“完成”。

向 Hive 作業新增元件
要向 Hive 作業新增元件,請從調色盤中拖放五個 Talend 元件 - tHiveConnection、tHiveCreateTable、tHiveLoad、tHiveInput 和 tLogRow 到設計器視窗。然後,右鍵單擊 tHiveConnection 並建立到 tHiveCreateTable 的 OnSubjobOk 觸發器。現在,右鍵單擊 tHiveCreateTable 並建立到 tHiveLoad 的 OnSubjobOk 觸發器。右鍵單擊 tHiveLoad 並建立到 tHiveInput 的迭代觸發器。最後,右鍵單擊 tHiveInput 並建立到 tLogRow 的主線。

配置元件和轉換
在 tHiveConnection 中,選擇分散式為 cloudera 及其正在使用的版本。請注意,連線模式將為獨立模式,Hive 服務將為 Hive 2。還要檢查以下引數是否已相應設定:
- 主機:“quickstart.cloudera”
- 埠:“10000”
- 資料庫:“default”
- 使用者名稱:“hive”
請注意,密碼將自動填充,您無需編輯它。其他 Hadoop 屬性也將預設並預設設定。

在 tHiveCreateTable 中,選擇“使用現有連線”並將 tHiveConnection 放入元件列表中。提供您想要在預設資料庫中建立的表名。將其他引數保留如下所示。

在 tHiveLoad 中,選擇“使用現有連線”並將 tHiveConnection 放入元件列表中。在“載入操作”中選擇 LOAD。在“檔案路徑”中,提供 NYSE 輸入檔案的 HDFS 路徑。在“表名”中提及您要載入輸入的表。將其他引數保留如下所示。

在 tHiveInput 中,選擇“使用現有連線”並將 tHiveConnection 放入元件列表中。單擊“編輯架構”,新增列及其型別,如以下架構快照所示。現在提供您在 tHiveCreateTable 中建立的表名。
在查詢選項中放置您想要在 Hive 表上執行的查詢。這裡我們在測試 Hive 表中列印前 10 行的所有列。


在 tLogRow 中,單擊“同步列”並選擇“表模式”以顯示輸出。

執行 Hive 作業
單擊“執行”開始執行。如果所有連線和引數都正確設定,您將看到查詢的輸出,如下所示。
