- Apache Tajo 教程
- Apache Tajo - 首頁
- Apache Tajo - 簡介
- Apache Tajo - 架構
- Apache Tajo - 安裝
- Apache Tajo - 配置設定
- Apache Tajo - Shell 命令
- Apache Tajo - 資料型別
- Apache Tajo - 運算子
- Apache Tajo - SQL 函式
- Apache Tajo - 數學函式
- Apache Tajo - 字串函式
- Apache Tajo - 日期時間函式
- Apache Tajo - JSON 函式
- Apache Tajo - 資料庫建立
- Apache Tajo - 表管理
- Apache Tajo - SQL 語句
- 聚合與視窗函式
- Apache Tajo - SQL 查詢
- Apache Tajo - 儲存外掛
- 與 HBase 整合
- Apache Tajo - 與 Hive 整合
- OpenStack Swift 整合
- Apache Tajo - JDBC 介面
- Apache Tajo - 自定義函式
- Apache Tajo 有用資源
- Apache Tajo - 快速指南
- Apache Tajo - 有用資源
- Apache Tajo - 討論
Apache Tajo - 簡介
分散式資料倉庫系統
資料倉庫是一種關係型資料庫,其設計用於查詢和分析,而不是用於事務處理。它是一個面向主題的、整合的、隨時間變化的、非易失性的資料集合。這些資料幫助分析師在組織中做出明智的決策,但關係型資料量日益增加。
為了克服這些挑戰,分散式資料倉庫系統跨多個數據儲存庫共享資料,以進行聯機分析處理 (OLAP)。每個資料倉庫可能屬於一個或多個組織。它執行負載平衡和可擴充套件性。元資料被複制並集中分發。
Apache Tajo 是一種分散式資料倉庫系統,它使用 Hadoop 分散式檔案系統 (HDFS) 作為儲存層,並擁有自己的查詢執行引擎,而不是 MapReduce 框架。
Hadoop 上 SQL 的概述
Hadoop 是一個開源框架,允許在分散式環境中儲存和處理大資料。它非常快速和強大。但是,Hadoop 的查詢功能有限,因此可以透過 Hadoop 上的 SQL 進一步提高其效能。這允許使用者透過簡單的 SQL 命令與 Hadoop 進行互動。
Hadoop 上 SQL 應用的一些示例包括 Hive、Impala、Drill、Presto、Spark、HAWQ 和 Apache Tajo。
什麼是 Apache Tajo
Apache Tajo 是一個關係型和分散式資料處理框架。它旨在進行低延遲和可擴充套件的 ad-hoc 查詢分析。
Tajo 支援標準 SQL 和各種資料格式。大多數 Tajo 查詢無需任何修改即可執行。
Tajo 透過用於失敗任務的重啟機制和可擴充套件的查詢重寫引擎具有**容錯性**。
Tajo 執行必要的**ETL(提取、轉換和載入過程)**操作以彙總儲存在 HDFS 上的大型資料集。它是 Hive/Pig 的替代選擇。
最新版本的 Tajo 具有更好的與 Java 程式和第三方資料庫(如 Oracle 和 PostGreSQL)的連線性。
Apache Tajo 的特性
Apache Tajo 具有以下特性:
- 卓越的可擴充套件性和最佳化的效能
- 低延遲
- 使用者定義函式
- 行/列儲存處理框架。
- 與 HiveQL 和 Hive MetaStore 相容
- 簡單的資料流和易於維護。
Apache Tajo 的優勢
Apache Tajo 提供以下優勢:
- 易於使用
- 簡化的架構
- 基於成本的查詢最佳化
- 向量化查詢執行計劃
- 快速交付
- 簡單的 I/O 機制並支援各種型別的儲存。
- 容錯
Apache Tajo 的用例
以下是 Apache Tajo 的一些用例:
資料倉庫和分析
韓國 SK 電訊公司針對 1.7 TB 的資料執行 Tajo,發現它可以比 Hive 或 Impala 更快地完成查詢。
資料發現
韓國音樂流媒體服務 Melon 使用 Tajo 進行分析處理。Tajo 執行 ETL(提取-轉換-載入過程)作業的速度比 Hive 快 1.5 到 10 倍。
日誌分析
Bluehole Studio 是一家韓國公司,開發了 TERA——一款奇幻多人線上遊戲。該公司使用 Tajo 進行遊戲日誌分析,並查詢服務質量中斷的主要原因。
儲存和資料格式
Apache Tajo 支援以下資料格式:
- JSON
- 文字檔案 (CSV)
- Parquet
- Sequence File
- AVRO
- Protocol Buffer
- Apache Orc
Tajo 支援以下儲存格式:
- HDFS
- JDBC
- Amazon S3
- Apache HBase
- Elasticsearch