資料架構 - 資料網格基礎



資料網格的概念由Nextdata的執行長Zhamak Dehghani提出。它不是一項具體的技術,而是一種新的資料工作方式。您可以使用不同的技術,例如資料倉庫資料湖來構建資料網格。本章解釋了什麼是資料網格,它是如何工作的以及何時使用它。本章涵蓋



什麼是資料網格?

資料網格是一種透過讓每個團隊負責自己的資料來組織公司資料的途徑。與其讓一箇中央團隊控制所有資料,不如讓每個團隊(或領域)像管理產品一樣處理自己的資料,以便其他人可以輕鬆使用。

它有四個主要思想。

  • 領域所有權:每個團隊擁有並管理自己的資料。
  • 資料即產品:資料被視為產品,方便其他人查詢和使用。
  • 自動化基礎設施:系統自動處理管理資料所需的工具。
  • 治理:有一些規則確保資料安全、可靠並符合公司標準。

何時使用資料網格?

資料網格在以下情況下很有幫助

  • 資料處理速度緩慢或延遲
  • 資料質量在整個組織中不一致
  • 組織難以擴充套件其資料能力
  • 由於資料難以訪問,企業錯失商機

去中心化資料架構

傳統的資料系統,如資料倉庫資料湖,是中心化的,這意味著一箇中央團隊控制所有資料。

資料網格中,資料是去中心化的。每個團隊管理自己的資料,決定如何使用它,並將其儲存在自己的領域中。您可以直接訪問資料所在的位置,而無需將其移動到中央系統。這使得資料更易於管理,並且隨著公司發展而更好地擴充套件。

集中式系統中,中央團隊處理所有事情,包括儲存資料、確保質量和安全、管理資料管道和備份。這些系統透過向單箇中央系統新增更多功能來增長,而資料網格則透過賦予每個團隊對其自身資料的控制權來增長。

資料網格熱潮

資料網格自2019年以來備受關注,但仍處於早期階段,採用率有限(5%-20%)。Gartner預測,隨著企業轉向使用被動元資料,它將被資料織網取代。

雖然有些人認為資料網格解決了資料倉庫中的擴充套件問題,但失敗的真正原因通常是人員或流程問題,而不是技術本身。

即使有如此多的炒作,大型資料解決方案多年來一直執行良好。實際上很少有公司真正使用資料網格,大多數聲稱使用它的公司實際上使用的是其他系統,例如資料織網湖倉

Dehghani的資料網格四大原則

旨在改進組織內資料管理、可擴充套件性和協作的四個關鍵原則如下。

領域所有權

資料網格中,每個業務領域(例如銷售、製造或營銷)負責自己的資料。最瞭解資料的人員負責管理它,而不是中央團隊。透過分散資料所有權,管理和擴充套件資料的過程變得更加高效和適應性強。

資料即產品

資料應被視為一種產品,需要持續開發、維護和改進。就像任何產品一樣,它應該具有高質量、易於查詢且使用者友好。團隊負責確保其資料可靠、有據可查、安全且可供其他人訪問。

自助式資料基礎設施

領域團隊需要易於建立和管理資料產品的工具。與其從頭構建複雜的系統,不如讓中央平臺提供用於儲存、處理和共享資料的現成解決方案。這種方法使領域團隊能夠專注於其資料,而不必擔心技術基礎設施。

聯邦計算治理

資料治理應該是中央團隊和每個業務領域之間共同承擔的責任。中央團隊制定安全、資料質量和法律要求的主要規則,而每個業務領域則確保其自身資料遵循這些規則。這樣,組織保持一致,但每個領域仍然可以滿足其自身的特定需求。

資料網格中的資料域

資料網格中,每個建立或使用資料的業務領域都對其負責。最瞭解資料的人員負責管理它。資料域主要有三種類型。

  • 源對齊資料:這是來自原始系統的資料,已轉換為可分析的資料。它不是為任何特定組定製的,而是跨多個業務領域使用。
  • 聚合資料:來自不同領域的資料組合,以簡化報告或分析,例如合併銷售和製造資料以生成利潤報告。
  • 消費者對齊資料:修改後的資料,以滿足特定部門或用例的需求,例如使非技術團隊或機器學習模型更容易使用。

資料網格邏輯架構

資料網格中,資料分佈在不同的業務領域或域中,每個域擁有自己的資料產品。以下是它的工作原理。

  • 源對齊域:這些域處理來自其運營的直接資料。例如,銷售團隊將客戶資料儲存在資料湖中,並將其與其他資料結合起來進行分析。
  • 消費者對齊域:這些域簡化複雜資料,使非技術團隊(如供應商)更容易理解和使用資訊。
  • 聚合域:這些域組合來自不同來源的資料(例如銷售和製造),以建立報告或執行分析。這提高了查詢資料的速度和效率。
  • 客戶360域:此域將來自不同來源的客戶資料(例如人口統計、交易、反饋)組合到一個完整的檢視中,並與所有相關團隊共享。

資料網格拓撲

資料網格可以以三種方式組織,具體取決於集中或分散的程度:每種方式都有其自身的優缺點。

  • 網格型別1:所有域使用相同的技術和一個共享的資料湖。這使得管理安全和資料更容易,並避免了使用單獨的資料湖帶來的效能問題。
  • 網格型別2:域使用相同的技術,但擁有自己的單獨資料湖。這提供了更大的自由度,但也可能使合併來自不同資料湖的資料變得更加困難。
  • 網格型別3:域可以使用不同的技術和雲服務(如AWS、Azure或GCP)。這提供了更大的靈活性,但也帶來了安全、資料管理和跨不同平臺整合資料的挑戰。

資料網格與資料織網

資料網格資料織網都是重要的概念,但它們服務於不同的目的,如下表所示。

方面 資料網格 資料織網
定義 一種透過將資料劃分為業務的不同部分來管理資料的方式。 一個將資料連線並管理在一個地方的系統。
資料所有權 不同的團隊或部門擁有並管理自己的資料。 一箇中央團隊(如IT)管理所有資料。
資料組織方式 資料按業務領域(如銷售、營銷等)劃分。 所有資料都儲存在一個地方並一起組織。
靈活性 每個團隊可以使用他們喜歡的工具和技術。 每個人在整個系統中使用相同的工具和技術。
最適合 擁有許多部門且需要控制自身資料的公司。 希望所有資料都在一箇中央系統中的公司。
可擴充套件性 隨著更多部門加入,易於擴充套件。 當資料量很大時,可能難以擴充套件。
資料共享 資料透過API和其他方法在團隊之間共享。 資料儲存在一個地方,因此團隊可以輕鬆訪問它。
主要關注點 賦予不同團隊對其自身資料的控制權。 簡化在一個地方連線和管理所有資料。

資料網格和資料織網如何協同工作?

資料網格資料織網協同工作以幫助管理和連線整個組織的資料。以下是它們各自發揮的作用

  • 資料網格:按不同的業務領域分解資料,以便每個團隊負責自己的資料。
  • 資料織網:提供連線所有資料的工具和系統,使每個人都易於訪問。

何時使用資料網格與資料織網

資料網格資料織網都可用於管理資料,但每個都適合不同的需求。以下是何時使用每個。

用例

資料網格 資料織網
最適合 去中心化團隊管理自己的資料 集中控制所有資料來源
理想適用於 擁有多個領域的複雜組織 簡化來自不同系統的資料
規模 在沒有中央控制的情況下擴充套件跨團隊的資料 管理來自多個來源的大量資料

資料網格的用例

資料網格在以下情況下很有幫助:

  • 金融服務:管理客戶賬戶、交易和風險的資料。
  • 醫療保健:組織患者記錄、索賠和研究資料。
  • 零售:連線客戶、庫存和銷售資料。
  • 緩慢的資料處理流程:透過讓團隊控制自己的資料來加快速度。
  • 資料質量差:幫助提高每個部門的資料質量。
廣告

© . All rights reserved.