資料架構 - 資料湖

本章解釋了什麼是**資料湖**，它的用途以及它與傳統資料儲存系統的區別。我們將介紹基本概念以及組織選擇採用資料湖的原因。

什麼是資料湖？

**資料湖**是一個儲存系統，它以原始格式儲存大量原始資料。它可以儲存不同型別的資料，例如結構化資料、半結構化資料和非結構化資料。與組織和處理資料的數倉不同，資料湖需要對資料進行清洗、連線，並可能進行聚合才能使其有用，需要處理能力來管理和分析它。

資料湖的關鍵特性包括：

以原始格式儲存資料
支援所有資料型別
使用 Schema-on-read 方法
高可擴充套件性和靈活性
允許高階分析和機器學習

為什麼使用資料湖？

使用**資料湖**提供了許多優勢，尤其是在與傳統資料倉庫 (DW) 結合使用時。一些好處包括：

**快速資料儲存：**資料可以快速儲存而無需任何設定，允許資料分析師和資料科學家等熟練使用者更快地訪問它。這種快速訪問有助於他們更有效地生成報告和訓練機器學習模型。
**節省成本：**與資料倉庫相比，資料湖通常提供更便宜的計算選項。
**高效的調查：**如果使用者需要源資料，可以將其快速複製到資料湖中進行快速審查，然後再在資料倉庫中建立結構。
**高效能：**多個計算選項可以同時處理資料，從而提高效能。
**靈活性：**與資料倉庫中 SQL 的限制不同，資料湖允許使用不同的方法進行更復雜的資料修改。
**無需維護視窗：**資料湖提供對資料倉庫的持續 24/7 訪問，最大限度地減少使用者和繁重資料處理任務之間的衝突。

資料湖的關鍵組成部分

這些元件協同工作，有助於有效地儲存和管理資料。每一層對於資料的輸入、安全儲存、處理和訪問都非常重要，因此使用者可以輕鬆獲得見解並做出明智的決策。

**資料攝取層：**這是資料進入資料湖的方式。資料可以來自不同的來源，例如資料庫、應用程式或感測器。它包括用於批次攝取、即時流式傳輸和更改資料捕獲的工具。
**儲存層：**這是儲存資料的“湖”。它通常構建在 Hadoop 分散式檔案系統 (HDFS) 或雲端儲存（如 Amazon S3）等系統之上。
**元資料管理層：**此層跟蹤有關資料湖中資料的關鍵詳細資訊，例如資料的來源、格式以及它與其他資料的關係。它幫助使用者更好地查詢和理解資料。
**資料處理層：**此層清洗、轉換和分析資料。此處使用 Apache Spark 和 Flink 等常用工具來支援批次處理和即時處理。
**資料訪問層：**此層允許使用者和應用程式從資料湖中檢索資料。它包括 SQL 查詢引擎、資料視覺化工具和 API，從而促進高效的資料訪問。
**安全層：**此層保護資料隱私並確保組織遵守法規。它包括訪問控制以管理誰可以檢視資料，加密以保護敏感資訊以及稽核功能以監控資料使用情況。
**資料治理層：**此層側重於管理資料質量和安全。它包括保持資料準確性、管理元資料和控制誰可以訪問資料的工具，從而使所有內容井然有序並遵循規則。
**資料工作流和監控層：**此層管理資料流並檢查系統性能。它確保所有流程順利執行，並有助於快速查詢和修復任何問題。

資料湖架構中的自下而上方法

資料湖中的**自下而上方法**允許使用者快速輕鬆地開始使用資料，而無需進行大量的初始規劃。此方法非常適合在不確定要提出什麼問題時檢視資料。以下是它的工作原理：

**探索資料：**使用者可以從瀏覽資料開始，而無需事先明確的問題。這種探索有助於他們發現他們可能沒有注意到的有價值的見解。
**預測分析：**一旦確定了模式，資料科學家就可以使用機器學習來分析歷史資料並預測未來事件。
**規範性分析：**更進一步，這種方法會根據這些預測提出行動建議。例如，它可以推薦物流中最佳的交付路線或減少風險的方法。
**更廣泛的應用：**資料湖最初主要用於預測性和規範性分析，但現在它們對許多型別的分析都很有價值。這使得它們對各個領域的組織都非常有用。
**資料建模：**如果使用者在探索過程中發現了有用的資料，他們可以稍後將其組織起來並轉移到關係型資料倉庫中，以便更容易訪問。資料建模有助於闡明資料的關聯方式以及應該如何安排資料。

**自下而上方法**允許使用者更自由地與資料互動，從而產生新的見解並改進決策。

多個數據湖

為所有資料建立一個大型資料湖似乎是最佳方法，從而更容易查詢和組合資訊。但是，擁有多個獨立的資料湖有很多好處。

多個數據湖的優勢

**組織需求：**不同的團隊可能需要自己的資料湖來進行特定專案，這有助於他們更好地管理資料。
**合規性和安全性：**法規通常要求將敏感資料分開。多個數據湖可以幫助確保機密資訊安全並遵循法規。
**雲管理：**擁有多個數據湖可以幫助您保持在雲端儲存限制範圍內。每個資料湖都可以有自己的規則，從而更容易遵循公司準則和跟蹤成本。
**效能和可用性：**將資料湖放置在更靠近您的位置可以加快訪問速度。如果一個數據湖出現問題，您可以快速切換到另一個數據湖，而不會丟失對資料訪問。
**資料保留管理：**不同的資料湖可以有自己保留資料的規則，確保您滿足法律要求，同時高效地使用儲存空間。

多個數據湖的缺點

雖然有很多好處，但管理多個數據湖可能會更復雜且成本更高。它可能需要額外的資源和技能。在資料湖之間移動資料也可能很困難，尤其是在它們相距很遠的情況下，這可能會減慢對報告所需資訊的訪問速度。

資料湖架構與傳統儲存系統有何不同？

**資料湖架構**與傳統儲存系統在多個方面有所不同。**資料湖**可以儲存各種格式的原始資料，而**傳統系統**需要先對資料進行結構化。這意味著它們可以儲存所有型別的資料，包括結構化資料、半結構化資料和非結構化資料，從而提高了靈活性。**資料湖**也更容易擴充套件，允許管理大量資料而不會產生高成本。使用者可以快速訪問和分析資料，而無需進行大量準備工作。總的來說，資料湖為當今的資料需求提供了更大的靈活性和效率。

資料湖設計的最佳實踐

有效地設計資料湖對於其成功至關重要。以下是一些需要記住的關鍵實踐。

**仔細規劃：**花時間識別您當前使用以及將來可能使用的所有資料來源。瞭解資料的型別、大小和速度。現在良好的設計可以避免以後昂貴的更改。
**分層組織：**將您的資料湖劃分為幾個層，以提高資料質量和可管理性。每一層都有特定的作用，從原始資料到精細的資訊。
- **原始層：**以原始格式儲存未處理的資料並存儲歷史記錄。
- **一致性層：**使所有資料格式保持一致（例如更改為 Parquet）。
- **清洗層：**透過清洗和組合資料來改進資料，使其成為可用的資料集。
- **展示層：**應用業務邏輯來準備用於分析的資料，使其易於理解。
- **沙盒層（可選）：**資料科學家自由實驗和分析資料的地方。
**建立資料夾結構：**為每一層設定清晰的資料夾結構。這種組織使使用者易於查詢資料，並提高安全性及效能。
**關注治理：**實施資料治理實踐以維護資料質量並確保一切符合規則。這有助於防止“資料沼澤”，其中資料變得雜亂無章且難以管理。
**使用多功能應用程式：**資料湖可以處理多種型別的分析。它們最初用於預測性和規範性分析，但現在支援不同行業中的各種分析。
**促進資料建模：**當用戶找到有用的資料時，他們可以將其組織起來，然後將其移動到關係型資料倉庫中。資料建模有助於顯示資料是如何關聯和組織的，從而使其更容易訪問和使用。

資料湖的實際用例

資料湖以多種方式幫助企業。

**客戶 360：**整合所有客戶資料以更好地瞭解他們的需求。
**物聯網分析：**分析來自聯網裝置的資料以改進產品和服務。
風險分析：利用歷史資料識別和管理潛在風險。
個性化：定製產品或服務以符合每位客戶的偏好。

資料湖的未來趨勢

以下是資料管理的一些新方向。

資料網格：一種在整個組織中管理資料的去中心化方法。
自動化資料質量：利用技術自動檢測和修復資料問題。
即時分析：從即時資料流中提供即時洞察。
多雲資料湖：跨不同雲服務儲存資料，以提高靈活性和可靠性。

列印頁面