- HCatalog 教程
- HCatalog 首頁
- HCatalog 簡介
- HCatalog 安裝
- HCatalog 命令列介面 (CLI)
- HCatalog CLI 命令
- HCatalog 建立表
- HCatalog 修改表
- HCatalog 檢視
- HCatalog 顯示錶
- HCatalog 顯示分割槽
- HCatalog 索引
- HCatalog API
- HCatalog 讀寫器
- HCatalog 輸入輸出格式
- HCatalog 載入器和儲存器
- HCatalog 有用資源
- HCatalog 快速指南
- HCatalog 有用資源
- HCatalog 討論
HCatalog 簡介
什麼是 HCatalog?
HCatalog 是 Hadoop 的一個表儲存管理工具。它將 Hive 元儲存的表格資料暴露給其他 Hadoop 應用程式。它使使用者能夠使用不同的資料處理工具(Pig、MapReduce)輕鬆地將資料寫入網格。它確保使用者不必擔心資料儲存的位置或格式。
HCatalog 作為 Hive 的關鍵元件,使使用者能夠以任何格式和任何結構儲存資料。
為什麼選擇 HCatalog?
為合適的作業啟用合適的工具
Hadoop 生態系統包含不同的資料處理工具,例如 Hive、Pig 和 MapReduce。雖然這些工具不需要元資料,但在元資料存在時仍然可以從中受益。共享元資料儲存還可以使使用者更容易跨工具共享資料。一個使用 MapReduce 或 Pig 載入和規範化資料,然後透過 Hive 進行分析的工作流程非常常見。如果所有這些工具共享一個元儲存,那麼每個工具的使用者都可以立即訪問使用其他工具建立的資料。不需要載入或傳輸步驟。
捕獲處理狀態以啟用共享
HCatalog 可以釋出您的分析結果。因此,其他程式設計師可以透過“REST”訪問您的分析平臺。您釋出的模式對其他資料科學家也很有用。其他資料科學家將您的發現用作後續發現的輸入。
將 Hadoop 與所有內容整合
Hadoop 作為處理和儲存環境為企業帶來了許多機會;但是,為了推動採用,它必須與現有工具一起工作並增強現有工具。Hadoop 應該作為您分析平臺的輸入,或者與您的運營資料儲存和 Web 應用程式整合。組織應該能夠享受到 Hadoop 的價值,而無需學習全新的工具集。REST 服務透過熟悉的 API 和類似 SQL 的語言為企業打開了平臺。企業資料管理系統使用 HCatalog 與 Hadoop 平臺更深入地整合。
HCatalog 架構
下圖顯示了 HCatalog 的整體架構。
HCatalog 支援讀取和寫入任何格式的檔案,只要可以編寫 **SerDe**(序列化器-反序列化器)。預設情況下,HCatalog 支援 RCFile、CSV、JSON、SequenceFile 和 ORC 檔案格式。要使用自定義格式,必須提供 InputFormat、OutputFormat 和 SerDe。
HCatalog 建立在 Hive 元儲存之上,幷包含 Hive 的 DDL。HCatalog 為 Pig 和 MapReduce 提供讀寫介面,並使用 Hive 的命令列介面發出資料定義和元資料探索命令。