Apache Presto - 概述



資料分析是對原始資料進行分析以收集相關資訊以進行更好決策的過程。它主要用於許多組織中做出業務決策。大型資料分析涉及大量資料,此過程相當複雜,因此公司使用不同的策略。

例如,Facebook 是全球領先的資料驅動型和最大的資料倉庫公司之一。Facebook 的倉庫資料儲存在 Hadoop 中以進行大規模計算。後來,當倉庫資料增長到 PB 級時,他們決定開發一個新的低延遲系統。在 2012 年,Facebook 團隊成員設計了“Presto” 用於互動式查詢分析,即使在 PB 級資料的情況下也能快速執行。

什麼是 Apache Presto?

Apache Presto 是一個分散式並行查詢執行引擎,針對低延遲和互動式查詢分析進行了最佳化。Presto 可以輕鬆執行查詢,並且可以無停機時間地擴充套件,即使是從 GB 到 PB。

單個 Presto 查詢可以處理來自多個來源的資料,例如 HDFS、MySQL、Cassandra、Hive 和許多其他資料來源。Presto 使用 Java 構建,易於與其他資料基礎設施元件整合。Presto 功能強大,Airbnb、Dropbox、Groupon、Netflix 等領先公司都在採用它。

Presto - 特性

Presto 包含以下特性:

  • 簡單且可擴充套件的架構。
  • 可插拔聯結器 - Presto 支援可插拔聯結器,為查詢提供元資料和資料。
  • 流水線執行 - 避免不必要的 I/O 延遲開銷。
  • 使用者定義函式 - 分析師可以建立自定義使用者定義函式以輕鬆遷移。
  • 向量化列式處理。

Presto - 優勢

以下是 Apache Presto 提供的優勢列表:

  • 專業的 SQL 操作
  • 易於安裝和除錯
  • 簡單的儲存抽象
  • 快速擴充套件 PB 級資料,同時保持低延遲

Presto - 應用

Presto 支援當今大多數最佳的工業應用。讓我們來看一些值得注意的應用。

  • Facebook - Facebook 構建 Presto 用於資料分析需求。Presto 可以輕鬆擴充套件大型資料速度。

  • Teradata - Teradata 提供大資料分析和資料倉庫的端到端解決方案。Teradata 對 Presto 的貢獻使更多公司更容易滿足所有分析需求。

  • Airbnb - Presto 是 Airbnb 資料基礎架構不可或缺的一部分。數百名員工每天都在使用這項技術執行查詢。

為什麼選擇 Presto?

Presto 支援標準 ANSI SQL,這使得資料分析師和開發人員更容易使用。雖然它使用 Java 構建,但它避免了 Java 程式碼中與記憶體分配和垃圾回收相關的典型問題。Presto 具有對 Hadoop 友好的聯結器架構。它允許輕鬆插入檔案系統。

Presto 可以在多個 Hadoop 發行版上執行。此外,Presto 可以從 Hadoop 平臺查詢 Cassandra、關係資料庫或其他資料儲存。這種跨平臺分析能力允許 Presto 使用者從 GB 到 PB 的資料中提取最大的業務價值。

廣告
© . All rights reserved.