Talend - Hive



在本章中,讓我們瞭解如何在 Talend 上使用 Hive 作業。

建立 Talend Hive 作業

例如,我們將把 NYSE 資料載入到 Hive 表中並執行一個基本的 Hive 查詢。右鍵單擊“作業設計”並建立一個新的作業 - hivejob。填寫作業詳細資訊,然後單擊“完成”。

Hive Job

向 Hive 作業新增元件

要向 Hive 作業新增元件,請從調色盤中拖放五個 Talend 元件 - tHiveConnection、tHiveCreateTable、tHiveLoad、tHiveInput 和 tLogRow 到設計器視窗。然後,右鍵單擊 tHiveConnection 並建立到 tHiveCreateTable 的 OnSubjobOk 觸發器。現在,右鍵單擊 tHiveCreateTable 並建立到 tHiveLoad 的 OnSubjobOk 觸發器。右鍵單擊 tHiveLoad 並建立到 tHiveInput 的迭代觸發器。最後,右鍵單擊 tHiveInput 並建立到 tLogRow 的主線。

Adding Components

配置元件和轉換

在 tHiveConnection 中,選擇分散式為 cloudera 及其正在使用的版本。請注意,連線模式將為獨立模式,Hive 服務將為 Hive 2。還要檢查以下引數是否已相應設定:

  • 主機:“quickstart.cloudera”
  • 埠:“10000”
  • 資料庫:“default”
  • 使用者名稱:“hive”

請注意,密碼將自動填充,您無需編輯它。其他 Hadoop 屬性也將預設並預設設定。

Configuring Components

在 tHiveCreateTable 中,選擇“使用現有連線”並將 tHiveConnection 放入元件列表中。提供您想要在預設資料庫中建立的表名。將其他引數保留如下所示。

Hive Create Table

在 tHiveLoad 中,選擇“使用現有連線”並將 tHiveConnection 放入元件列表中。在“載入操作”中選擇 LOAD。在“檔案路徑”中,提供 NYSE 輸入檔案的 HDFS 路徑。在“表名”中提及您要載入輸入的表。將其他引數保留如下所示。

Existing  Connection

在 tHiveInput 中,選擇“使用現有連線”並將 tHiveConnection 放入元件列表中。單擊“編輯架構”,新增列及其型別,如以下架構快照所示。現在提供您在 tHiveCreateTable 中建立的表名。

在查詢選項中放置您想要在 Hive 表上執行的查詢。這裡我們在測試 Hive 表中列印前 10 行的所有列。

Hive Connection Schema_of_tHiveInput

在 tLogRow 中,單擊“同步列”並選擇“表模式”以顯示輸出。

Table Mode

執行 Hive 作業

單擊“執行”開始執行。如果所有連線和引數都正確設定,您將看到查詢的輸出,如下所示。

Executing Hive Job
廣告