資料倉庫的過程是什麼?


資料分段是一個主要的過程,包括以下子過程:

提取 - 提取步驟是將資訊引入資料倉庫環境的第一階段。提取定義了讀取和學習源資料,並將所需元素複製到資料分段區域以進行更多處理。

轉換 - 由於資料被提取到資料分段區域,因此存在多個可能的轉換過程,如下所示:

  • 它可以透過糾正拼寫錯誤、解決域衝突(包括與郵政編碼不一致的城市名稱)、處理缺失的資料元件以及確定標準格式來清理資料。

  • 它可以用於清除舊記錄中對資料倉庫沒有用的選定欄位。

  • 它可以透過在關鍵值上精確對應或在非關鍵屬性上實施模糊匹配來連線資料來源,例如查詢舊系統程式碼的文字同義詞。

  • 它可以為每個維度資料建立代理鍵,以避免依賴於舊系統定義的鍵,其中代理鍵生成過程在維度表和事實表之間實現引用完整性。

  • 它可以用於構建聚合以促進常見查詢的執行。

載入和索引 - 在轉換階段結束時,資料處於載入資料映像的設計中。資料倉庫環境中的載入通常採用反映維度表和事實表以及將這些表特徵化到每個接收資料倉庫的大小載入工具的形式。

質量保證檢查 - 當每個資料倉庫載入並索引並提供合適的聚合後,在釋出之前的最後一步是質量保證步驟。可以透過在整個新載入資料集中執行全面的異常文件來檢查質量保證。

所有報告元素都應該存在,並且所有計數和總數都應該足夠。所有報告的值都應該與預期它們的相同值的時序相關聯。異常文件是用資料倉庫的終端使用者文件編寫工具構建的。

釋出/釋出 - 當每個資料倉庫當前已載入並保證質量後,應通知使用者社群新記錄已準備就緒。釋出還連線了基本維度中出現的任何更改的性質以及已引入到已測量或計算的事實中的新假設。

查詢 - 查詢是一個廣泛的術語,它涵蓋了從資料倉庫請求資訊的所有活動,例如終端使用者的臨時查詢、文件編寫、複雜的決策支援應用程式、來自模型的請求和複雜的資料探勘。

更新於: 2022年2月9日

223 次檢視

開啟你的 職業生涯

透過完成課程獲得認證

開始
廣告