資料倉庫 - 系統流程



對於操作型資料庫,我們需要應用固定數量的操作,並且我們有明確定義的技術,例如使用規範化資料保持表小等。這些技術適用於交付解決方案。但是,對於決策支援系統,我們不知道將來需要執行哪些查詢和操作。因此,應用於操作型資料庫的技術不適用於資料倉庫。

在本章中,我們將討論如何在開放系統技術(如 Unix 和關係資料庫)之上構建資料倉庫解決方案。

資料倉庫中的流程流

資料倉庫有四個主要流程:

  • 提取和載入資料。
  • 清洗和轉換資料。
  • 備份和歸檔資料。
  • 管理查詢並將它們引導到相應的資料來源。
Process Flow

提取和載入流程

資料提取從源系統獲取資料。資料載入獲取提取的資料並將其載入到資料倉庫中。

注意 - 在將資料載入到資料倉庫之前,必須重建從外部來源提取的資訊。

控制流程

控制流程涉及確定何時開始資料提取以及資料的一致性檢查。控制流程確保工具、邏輯模組和程式按正確的順序和時間執行。

何時啟動提取

提取資料時,資料需要處於一致狀態,即資料倉庫應向用戶呈現資訊的單個一致版本。

例如,在電信行業的客戶畫像資料倉庫中,將星期三晚上 8 點從客戶資料庫中提取的客戶列表與星期二晚上 8 點之前的客戶訂閱事件合併是不合邏輯的。這意味著我們正在查詢沒有關聯訂閱的客戶。

載入資料

提取資料後,將其載入到臨時資料儲存中,在其中進行清理並使其保持一致。

注意 - 一致性檢查僅在所有資料來源都載入到臨時資料儲存中時才執行。

清洗和轉換流程

資料提取並載入到臨時資料儲存後,就該執行清洗和轉換了。以下是清洗和轉換中涉及的步驟列表:

  • 將載入的資料清洗並轉換為結構
  • 對資料進行分割槽
  • 聚合

將載入的資料清洗並轉換為結構

清洗和轉換載入的資料有助於加快查詢速度。可以透過使資料保持一致來完成:

  • 在自身內部。
  • 與同一資料來源中的其他資料。
  • 與其他源系統中的資料。
  • 與倉庫中現有的資料。

轉換涉及將源資料轉換為結構。對資料進行結構化可以提高查詢效能並降低運營成本。資料倉庫中包含的資料必須進行轉換以支援效能要求並控制持續的運營成本。

對資料進行分割槽

這將最佳化硬體效能並簡化資料倉庫的管理。在這裡,我們將每個事實表劃分為多個獨立的分割槽。

聚合

聚合是加快常見查詢速度所必需的。聚合依賴於這樣一個事實,即大多數常見查詢將分析詳細資料的子集或聚合。

備份和歸檔資料

為了在資料丟失、軟體故障或硬體故障的情況下恢復資料,有必要定期備份。歸檔涉及以允許在需要時快速恢復的格式從系統中刪除舊資料。

例如,在零售銷售分析資料倉庫中,可能需要保留 3 年的資料,並將最近 6 個月的資料保留線上。在這種情況下,通常需要能夠進行今年和去年的月度比較。在這種情況下,我們需要從檔案中恢復一些資料。

查詢管理流程

此流程執行以下功能:

  • 管理查詢。

  • 幫助加快查詢執行時間。

  • 將查詢引導到其最有效的資料來源。

  • 確保以最有效的方式使用所有系統源。

  • 監控實際查詢配置檔案。

在此流程中生成的資訊由倉庫管理流程用於確定要生成哪些聚合。此流程通常不會在將資訊定期載入到資料倉庫期間執行。

廣告

© . All rights reserved.