BigQuery - 資料倉庫



對於許多組織而言,BigQuery 是資料倉庫的自然選擇。資料倉庫是一個業務系統和中央儲存庫,用於儲存資料以進行分析,然後進行下游報告。

注意 通常,儲存在資料倉庫中的資料是結構化或半結構化的,而不是資料湖,後者儲存非結構化資料。

BigQuery 能夠連線到LookerTableau 等視覺化平臺,使其成為為企業儀表板和臨時報告提供支援的理想引擎。能夠應用儲存最佳化(如分割槽和聚類)意味著資料團隊可以自信且高效地儲存資料數年或數十年,而無需擔心效能下降。能夠與 Python 和 JavaScript 等指令碼語言整合,使軟體工程師、資料架構師和資料工程師等專業人員能夠建立自動化、重複的載入作業。

將 BigQuery 與 Google 表格等其他應用程式整合,使儲存在 BigQuery 中的資料對可能更喜歡或專門使用電子表格的非技術利益相關者更可見且更易於訪問。

利用BigQuery API,開發人員可以將 BigQuery SQL 與程式邏輯相結合以生成自定義見解。

能夠按需新增插槽、升級儲存和加速查詢(使用BI 引擎等工具)對於最初構建或擴充套件其資料基礎設施的組織來說是一個有吸引力的提議。

這些功能的缺點是成本。但是,由於既有固定定價模型也有按使用付費的定價模型,因此業務使用者和決策者可能會發現使用以 BigQuery 為中心的資料倉庫的成本效益是值得的。

下圖由 Google Cloud 提供,說明了如何構建和實現面向基本資料倉庫的解決方案。

BigQuery Data Warehouse

來源:https://cloud.google.com/architecture/big-data-analytics/data-warehouse)

除了資料來源、應用程式和資料分析之外,此圖還可以細分為更具體的類別,並解釋為 -

  • 上游來源(第三方 API 或外部資料來源)。
  • 中間/暫存儲存(Cloud Storage 儲存桶)。
  • 永久/長期儲存(BigQuery)。
  • ML/AI 應用程式(Vertex AI、Cloud Functions 和 Compute Engine 虛擬機器)。
  • 下游使用者:透過 Looker 等視覺化平臺訪問模型和查詢輸出的業務使用者。

在任何一種解釋中,BigQuery 都是包含資料在生成下游使用者業務價值之前的中央儲存庫或“資料倉庫”。

廣告

© . All rights reserved.