Apache Tajo - 簡介

分散式資料倉庫系統

資料倉庫是一種關係型資料庫，其設計用於查詢和分析，而不是用於事務處理。它是一個面向主題的、整合的、隨時間變化的、非易失性的資料集合。這些資料幫助分析師在組織中做出明智的決策，但關係型資料量日益增加。

為了克服這些挑戰，分散式資料倉庫系統跨多個數據儲存庫共享資料，以進行聯機分析處理 (OLAP)。每個資料倉庫可能屬於一個或多個組織。它執行負載平衡和可擴充套件性。元資料被複制並集中分發。

Apache Tajo 是一種分散式資料倉庫系統，它使用 Hadoop 分散式檔案系統 (HDFS) 作為儲存層，並擁有自己的查詢執行引擎，而不是 MapReduce 框架。

Hadoop 是一個開源框架，允許在分散式環境中儲存和處理大資料。它非常快速和強大。但是，Hadoop 的查詢功能有限，因此可以透過 Hadoop 上的 SQL 進一步提高其效能。這允許使用者透過簡單的 SQL 命令與 Hadoop 進行互動。

Hadoop 上 SQL 應用的一些示例包括 Hive、Impala、Drill、Presto、Spark、HAWQ 和 Apache Tajo。

Apache Tajo 是一個關係型和分散式資料處理框架。它旨在進行低延遲和可擴充套件的 ad-hoc 查詢分析。

最新版本的 Tajo 具有更好的與 Java 程式和第三方資料庫（如 Oracle 和 PostGreSQL）的連線性。

Apache Tajo 具有以下特性：

Apache Tajo 提供以下優勢：

以下是 Apache Tajo 的一些用例：

韓國 SK 電訊公司針對 1.7 TB 的資料執行 Tajo，發現它可以比 Hive 或 Impala 更快地完成查詢。

韓國音樂流媒體服務 Melon 使用 Tajo 進行分析處理。Tajo 執行 ETL（提取-轉換-載入過程）作業的速度比 Hive 快 1.5 到 10 倍。

Bluehole Studio 是一家韓國公司，開發了 TERA——一款奇幻多人線上遊戲。該公司使用 Tajo 進行遊戲日誌分析，並查詢服務質量中斷的主要原因。

Apache Tajo 支援以下資料格式：

Tajo 支援以下儲存格式：

列印頁面