- 資料倉庫教程
- DWH - 首頁
- DWH - 概述
- DWH - 概念
- DWH - 術語
- DWH - 交付流程
- DWH - 系統流程
- DWH - 架構
- DWH - OLAP
- DWH - 關係型OLAP
- DWH - 多維OLAP
- DWH - 模式
- DWH - 分割槽策略
- DWH - 元資料概念
- DWH - 資料集市
- DWH - 系統管理員
- DWH - 流程管理員
- DWH - 安全性
- DWH - 備份
- DWH - 調優
- DWH - 測試
- DWH - 未來展望
- DWH - 面試問題
- DWH 有用資源
- DWH - 快速指南
- DWH - 有用資源
- DWH - 討論
資料倉庫 - 資料集市
為什麼我們需要資料集市?
以下是建立資料集市的理由:
為了對資料進行分割槽以實施訪問控制策略。
透過減少要掃描的資料量來加快查詢速度。
將資料分割到不同的硬體平臺。
以適合使用者訪問工具的形式構造資料。
注意 - 不要為了其他任何原因而建立資料集市,因為資料集市的運營成本可能非常高。在建立資料集市之前,請確保資料集市策略適合您的特定解決方案。
經濟高效的資料集市
按照以下步驟使資料集市具有成本效益:
- 識別功能拆分
- 識別使用者訪問工具需求
- 識別訪問控制問題
識別功能拆分
在此步驟中,我們確定組織是否具有自然的功能拆分。我們尋找部門拆分,並確定部門使用資訊的方式是否傾向於與組織的其餘部分隔離開來。讓我們舉個例子。
考慮一個零售組織,其中每個商家負責最大化一組產品的銷售。為此,以下資訊很有價值:
- 每日銷售交易
- 每週銷售預測
- 每日庫存狀況
- 每日庫存變動
由於商家對他們不處理的產品不感興趣,因此資料集市是與感興趣的產品組相關聯的資料的子集。下圖顯示了針對不同使用者的 資料集市。
以下是確定功能拆分時需要考慮的問題:
部門結構可能會發生變化。
產品可能會從一個部門轉移到另一個部門。
商家可以查詢其他產品的銷售趨勢,以分析銷售情況。
注意 - 我們需要確定使用資料集市的業務效益和技術可行性。
識別使用者訪問工具需求
我們需要資料集市來支援使用者訪問工具,這些工具需要內部資料結構。此類結構中的資料不受資料倉庫控制,但需要定期填充和更新。
有些工具可以直接從源系統填充,但有些則不能。因此,需要識別工具範圍之外的其他需求以備將來之用。
注意 - 為了確保所有訪問工具之間的資料一致性,資料不應直接從資料倉庫填充,而是每個工具都必須擁有自己的資料集市。
識別訪問控制問題
應該有隱私規則來確保只有授權使用者才能訪問資料。例如,零售銀行機構的資料倉庫確保所有賬戶都屬於同一個法律實體。隱私法律可能會迫使您完全禁止訪問不屬於特定銀行的資訊。
資料集市允許我們透過物理分離資料倉庫中的資料段來構建完整的牆。為了避免可能的隱私問題,可以從資料倉庫中刪除詳細資料。我們可以為每個法律實體建立資料集市,並透過資料倉庫載入它,其中包含詳細的賬戶資料。
資料集市設計
資料集市應設計為資料倉庫內星型雪花模式的較小版本,並應與資料倉庫的資料庫設計相匹配。這有助於維護對資料庫例項的控制。
摘要以與在資料倉庫中設計相同的方式進行資料集市化。彙總表有助於利用星型雪花模式中的所有維度資料。
資料集市成本
資料集市的成本衡量標準如下:
- 硬體和軟體成本
- 網路訪問
- 時間視窗約束
硬體和軟體成本
儘管資料集市是在相同的硬體上建立的,但它們需要一些額外的硬體和軟體。為了處理使用者查詢,它需要額外的處理能力和磁碟儲存。如果詳細資料和資料集市存在於資料倉庫中,那麼我們將面臨儲存和管理複製資料的額外成本。
注意 - 資料集市比聚合更昂貴,因此應將其用作附加策略,而不是替代策略。
網路訪問
資料集市可能位於與資料倉庫不同的位置,因此我們應確保區域網或廣域網具有處理資料集市載入過程中傳輸的資料量的能力。
時間視窗約束
資料集市載入過程在多大程度上會佔用可用時間視窗取決於轉換的複雜性和正在傳輸的資料量。確定可以建立多少個數據集市取決於:
- 網路容量。
- 可用時間視窗
- 正在傳輸的資料量
- 用於將資料插入資料集市的機制