Apache Tajo - 簡介



分散式資料倉庫系統

資料倉庫是一種關係型資料庫,其設計用於查詢和分析,而不是用於事務處理。它是一個面向主題的、整合的、隨時間變化的、非易失性的資料集合。這些資料幫助分析師在組織中做出明智的決策,但關係型資料量日益增加。

為了克服這些挑戰,分散式資料倉庫系統跨多個數據儲存庫共享資料,以進行聯機分析處理 (OLAP)。每個資料倉庫可能屬於一個或多個組織。它執行負載平衡和可擴充套件性。元資料被複制並集中分發。

Apache Tajo 是一種分散式資料倉庫系統,它使用 Hadoop 分散式檔案系統 (HDFS) 作為儲存層,並擁有自己的查詢執行引擎,而不是 MapReduce 框架。

Hadoop 上 SQL 的概述

Hadoop 是一個開源框架,允許在分散式環境中儲存和處理大資料。它非常快速和強大。但是,Hadoop 的查詢功能有限,因此可以透過 Hadoop 上的 SQL 進一步提高其效能。這允許使用者透過簡單的 SQL 命令與 Hadoop 進行互動。

Hadoop 上 SQL 應用的一些示例包括 Hive、Impala、Drill、Presto、Spark、HAWQ 和 Apache Tajo。

什麼是 Apache Tajo

Apache Tajo 是一個關係型和分散式資料處理框架。它旨在進行低延遲和可擴充套件的 ad-hoc 查詢分析。

  • Tajo 支援標準 SQL 和各種資料格式。大多數 Tajo 查詢無需任何修改即可執行。

  • Tajo 透過用於失敗任務的重啟機制和可擴充套件的查詢重寫引擎具有**容錯性**。

  • Tajo 執行必要的**ETL(提取、轉換和載入過程)**操作以彙總儲存在 HDFS 上的大型資料集。它是 Hive/Pig 的替代選擇。

最新版本的 Tajo 具有更好的與 Java 程式和第三方資料庫(如 Oracle 和 PostGreSQL)的連線性。

Apache Tajo 的特性

Apache Tajo 具有以下特性:

  • 卓越的可擴充套件性和最佳化的效能
  • 低延遲
  • 使用者定義函式
  • 行/列儲存處理框架。
  • 與 HiveQL 和 Hive MetaStore 相容
  • 簡單的資料流和易於維護。

Apache Tajo 的優勢

Apache Tajo 提供以下優勢:

  • 易於使用
  • 簡化的架構
  • 基於成本的查詢最佳化
  • 向量化查詢執行計劃
  • 快速交付
  • 簡單的 I/O 機制並支援各種型別的儲存。
  • 容錯

Apache Tajo 的用例

以下是 Apache Tajo 的一些用例:

資料倉庫和分析

韓國 SK 電訊公司針對 1.7 TB 的資料執行 Tajo,發現它可以比 Hive 或 Impala 更快地完成查詢。

資料發現

韓國音樂流媒體服務 Melon 使用 Tajo 進行分析處理。Tajo 執行 ETL(提取-轉換-載入過程)作業的速度比 Hive 快 1.5 到 10 倍。

日誌分析

Bluehole Studio 是一家韓國公司,開發了 TERA——一款奇幻多人線上遊戲。該公司使用 Tajo 進行遊戲日誌分析,並查詢服務質量中斷的主要原因。

儲存和資料格式

Apache Tajo 支援以下資料格式:

  • JSON
  • 文字檔案 (CSV)
  • Parquet
  • Sequence File
  • AVRO
  • Protocol Buffer
  • Apache Orc

Tajo 支援以下儲存格式:

  • HDFS
  • JDBC
  • Amazon S3
  • Apache HBase
  • Elasticsearch
廣告

© . All rights reserved.