資料倉庫 - 架構



本章將討論資料倉庫設計和架構的業務分析框架。

業務分析框架

業務分析師從資料倉庫獲取資訊,以衡量績效並進行關鍵調整,從而在市場上勝過其他業務持有者。擁有資料倉庫具有以下優勢:

  • 由於資料倉庫可以快速有效地收集資訊,因此可以提高業務效率。

  • 資料倉庫為我們提供了客戶和商品的一致檢視,因此有助於我們管理客戶關係。

  • 資料倉庫還可以透過以一致且可靠的方式跟蹤長期趨勢和模式來降低成本。

為了設計一個有效且高效的資料倉庫,我們需要理解和分析業務需求並構建一個**業務分析框架**。每個人對資料倉庫的設計都有不同的看法。這些觀點如下:

  • **自上而下的檢視** - 此檢視允許選擇資料倉庫所需的相關資訊。

  • **資料來源檢視** - 此檢視顯示運營系統捕獲、儲存和管理的資訊。

  • **資料倉庫檢視** - 此檢視包括事實表和維度表。它表示儲存在資料倉庫中的資訊。

  • **業務查詢檢視** - 這是從終端使用者的角度看待資料。

三層資料倉庫架構

通常,資料倉庫採用三層架構。以下是資料倉庫架構的三層:

  • **底層** - 架構的底層是資料倉庫資料庫伺服器。它是關係資料庫系統。我們使用後端工具和實用程式將資料饋送到底層。這些後端工具和實用程式執行提取、清理、載入和重新整理功能。

  • **中間層** - 在中間層,我們有 OLAP 伺服器,可以透過以下任一方式實現。

    • 透過關係型 OLAP (ROLAP),它是一個擴充套件的關係資料庫管理系統。ROLAP 將多維資料上的操作對映到標準的關係操作。

    • 透過多維 OLAP (MOLAP) 模型,它直接實現多維資料和操作。

  • **頂層** - 此層是前端客戶端層。此層包含查詢工具和報告工具、分析工具和資料探勘工具。

下圖描述了資料倉庫的三層架構:

Data Warehousing Architecture

資料倉庫模型

從資料倉庫架構的角度來看,我們有以下資料倉庫模型:

  • 虛擬倉庫
  • 資料市場
  • 企業倉庫

虛擬倉庫

對運營資料倉庫的檢視稱為虛擬倉庫。構建虛擬倉庫很容易。構建虛擬倉庫需要運營資料庫伺服器的額外容量。

資料市場

資料市場包含組織範圍資料的一個子集。這個資料子集對組織的特定群體很有價值。

換句話說,我們可以說資料市場包含特定於特定群體的資料。例如,營銷資料市場可能包含與商品、客戶和銷售相關的資料。資料市場侷限於主題。

關於資料市場需要注意的幾點:

  • 使用基於 Windows 或 Unix/Linux 的伺服器來實現資料市場。它們是在低成本伺服器上實現的。

  • 資料市場的實施週期以短時間段來衡量,即以周而不是月或年來衡量。

  • 從長遠來看,如果資料市場的規劃和設計不是組織範圍的,那麼它的生命週期可能會很複雜。

  • 資料市場規模較小。

  • 資料市場由部門定製。

  • 資料市場的來源是部門結構化資料倉庫。

  • 資料市場靈活。

企業倉庫

  • 企業倉庫收集所有資訊和跨越整個組織的主題

  • 它為我們提供了企業範圍的資料整合。

  • 資料是從運營系統和外部資訊提供商整合的。

  • 此資訊的大小從幾吉位元組到數百吉位元組、太位元組或更大不等。

載入管理器

此元件執行提取和載入過程所需的運算。

載入管理器的規模和複雜性因不同資料倉庫的特定解決方案而異。

載入管理器架構

載入管理器執行以下功能:

  • 從源系統提取資料。

  • 將提取的資料快速載入到臨時資料儲存區。

  • 執行簡單的轉換,使其結構類似於資料倉庫中的結構。

Load Manager

從源提取資料

資料是從運營資料庫或外部資訊提供商提取的。閘道器是用於提取資料的應用程式程式。它由底層 DBMS 支援,並允許客戶端程式生成在伺服器上執行的 SQL。開放資料庫連線 (ODBC)、Java 資料庫連線 (JDBC) 是閘道器的示例。

快速載入

  • 為了最大限度地減少總載入視窗,需要以儘可能快的速度將資料載入到倉庫中。

  • 轉換會影響資料處理速度。

  • 在應用轉換和檢查之前,將資料載入到關係資料庫中更有效。

  • 閘道器技術被證明是不合適的,因為當涉及大量資料時,它們往往效能不佳。

簡單的轉換

載入時可能需要執行簡單的轉換。完成此操作後,我們就可以進行復雜的檢查。假設我們正在載入 EPOS 銷售交易,我們需要執行以下檢查

  • 去除倉庫中不需要的所有列。
  • 將所有值轉換為所需的資料型別。

倉庫管理器

倉庫管理員負責倉庫管理流程。它由第三方系統軟體、C 程式和 shell 指令碼組成。

倉庫管理器的規模和複雜性因特定解決方案而異。

倉庫管理器架構

倉庫管理器包括以下內容:

  • 控制過程
  • 儲存過程或帶有 SQL 的 C
  • 備份/恢復工具
  • SQL 指令碼
Warehouse Manager

倉庫管理器執行的操作

  • 倉庫管理器分析資料以執行一致性和參照完整性檢查。

  • 針對基礎資料建立索引、業務檢視、分割槽檢視。

  • 生成新的聚合並更新現有的聚合。生成規範化。

  • 將源資料轉換併合併到已釋出的資料倉庫中。

  • 備份資料倉庫中的資料。

  • 存檔已達到捕獲生命週期末尾的資料。

**注意** - 倉庫管理器還會分析查詢配置檔案以確定索引和聚合是否合適。

查詢管理器

  • 查詢管理器負責將查詢定向到合適的表。

  • 透過將查詢定向到合適的表,可以提高查詢和響應生成的效率。

  • 查詢管理器負責排程使用者提出的查詢的執行。

查詢管理器架構

以下螢幕截圖顯示了查詢管理器的架構。它包括以下內容

  • 透過 C 工具或 RDBMS 進行查詢重定向
  • 儲存過程
  • 查詢管理工具
  • 透過 C 工具或 RDBMS 進行查詢排程
  • 透過第三方軟體進行查詢排程
Query Manager

詳細資訊

詳細資訊不會線上保留,而是會聚合到下一個詳細級別,然後存檔到磁帶上。資料倉庫的詳細資訊部分將詳細資訊儲存在星型雪花模式中。將詳細資訊載入到資料倉庫中以補充聚合資料。

下圖顯示了詳細資訊儲存位置及其使用方法的圖示。

Detailed Information

**注意** - 如果詳細資訊離線儲存以最大限度地減少磁碟儲存空間,我們應該確保資料在存檔之前已提取、清理並轉換為星型雪花模式。

彙總資訊

彙總資訊是資料倉庫的一部分,用於儲存預定義的聚合。這些聚合由倉庫管理器生成。彙總資訊必須被視為瞬態的。它會動態變化以響應不斷變化的查詢配置檔案。

關於彙總資訊需要注意的幾點如下:

  • 彙總資訊加快了常用查詢的效能。

  • 它增加了運營成本。

  • 每當將新資料載入到資料倉庫時,都需要更新它。

  • 它可能沒有備份,因為它可以從詳細資訊中重新生成。

廣告
© . All rights reserved.