- 資料倉庫教程
- DWH - 首頁
- DWH - 概述
- DWH - 概念
- DWH - 術語
- DWH - 交付流程
- DWH - 系統流程
- DWH - 架構
- DWH - OLAP
- DWH - 關係型OLAP
- DWH - 多維OLAP
- DWH - 模式
- DWH - 分割槽策略
- DWH - 元資料概念
- DWH - 資料超市
- DWH - 系統管理員
- DWH - 流程管理員
- DWH - 安全
- DWH - 備份
- DWH - 調優
- DWH - 測試
- DWH - 未來展望
- DWH - 面試問題
- DWH 有用資源
- DWH - 快速指南
- DWH - 有用資源
- DWH - 討論
資料倉庫 - 概述
“資料倉庫”一詞最早由 Bill Inmon 於 1990 年提出。根據 Inmon 的說法,資料倉庫是面向主題的、整合的、隨時間變化的、非易失性的資料集合。這些資料幫助分析師在組織中做出明智的決策。
操作型資料庫由於發生的交易每天都會發生頻繁的變化。假設業務主管希望分析任何資料的先前反饋,例如產品、供應商或任何消費者資料,那麼主管將無法獲得任何可供分析的資料,因為先前的資料由於交易而被更新。
資料倉庫為我們提供了多維檢視中的通用和合並資料。除了資料的通用和合並檢視之外,資料倉庫還為我們提供了聯機分析處理 (OLAP) 工具。這些工具幫助我們在多維空間中進行互動式和有效的分析。這種分析導致資料泛化和資料探勘。
關聯、聚類、分類、預測等資料探勘功能可以與 OLAP 操作整合,以增強多層次抽象中知識的互動式挖掘。這就是為什麼資料倉庫現在已成為資料分析和聯機分析處理的重要平臺。
理解資料倉庫
資料倉庫是一個數據庫,它與組織的操作型資料庫分開儲存。
資料倉庫沒有頻繁更新。
它擁有合併的歷史資料,這有助於組織分析其業務。
資料倉庫幫助高管組織、理解和使用其資料以做出戰略決策。
資料倉庫系統有助於整合各種應用程式系統。
資料倉庫系統有助於合併的歷史資料分析。
為什麼資料倉庫與操作型資料庫分離
資料倉庫與操作型資料庫分開儲存是由於以下原因 -
操作型資料庫是為眾所周知的任務和工作負載(例如搜尋特定記錄、索引等)而構建的。相比之下,資料倉庫查詢通常很複雜,並且它們呈現出一般形式的資料。
操作型資料庫支援多個事務的併發處理。操作型資料庫需要併發控制和恢復機制來確保資料庫的健壯性和一致性。
操作型資料庫查詢允許讀取和修改操作,而 OLAP 查詢只需要儲存資料的只讀訪問許可權。
操作型資料庫維護當前資料。另一方面,資料倉庫維護歷史資料。
資料倉庫特徵
下面討論資料倉庫的關鍵特徵 -
面向主題 - 資料倉庫面向主題,因為它提供圍繞主題的資訊,而不是組織的正在進行的操作。這些主題可以是產品、客戶、供應商、銷售、收入等。資料倉庫不關注正在進行的操作,而是關注決策的資料建模和分析。
整合 - 資料倉庫透過整合來自異構源(例如關係資料庫、平面檔案等)的資料來構建。這種整合增強了資料的有效分析。
隨時間變化 - 資料倉庫中收集的資料與特定時間段相關聯。資料倉庫中的資料提供從歷史角度看的資訊。
非易失性 - 非易失性意味著在新增新資料時不會擦除先前的資料。資料倉庫與操作型資料庫分開儲存,因此操作型資料庫中的頻繁更改不會反映在資料倉庫中。
注意 - 資料倉庫不需要事務處理、恢復和併發控制,因為它在物理上儲存並且與操作型資料庫分開。
資料倉庫應用
如前所述,資料倉庫幫助業務主管組織、分析和使用其資料進行決策。資料倉庫作為企業管理計劃-執行-評估“閉環”反饋系統的唯一組成部分。資料倉庫廣泛應用於以下領域 -
- 金融服務
- 銀行服務
- 消費品
- 零售行業
- 受控制造
資料倉庫型別
資訊處理、分析處理和資料探勘是下面討論的三種資料倉庫應用型別 -
資訊處理 - 資料倉庫允許處理其中儲存的資料。可以透過查詢、基本統計分析、使用交叉表、表格、圖表或圖形進行報告來處理資料。
分析處理 - 資料倉庫支援對其儲存的資訊進行分析處理。可以透過基本 OLAP 操作(包括切片和切塊、向下鑽取、向上鑽取和透視)來分析資料。
資料探勘 - 資料探勘透過查詢隱藏的模式和關聯、構建分析模型、執行分類和預測來支援知識發現。這些挖掘結果可以使用視覺化工具進行呈現。
| 序號 | 資料倉庫 (OLAP) | 操作型資料庫 (OLTP) |
|---|---|---|
| 1 | 它涉及資訊的歷時處理。 | 它涉及日常處理。 |
| 2 | OLAP 系統由知識工作者(如高管、經理和分析師)使用。 | OLTP 系統由職員、DBA 或資料庫專業人員使用。 |
| 3 | 它用於分析業務。 | 它用於運營業務。 |
| 4 | 它側重於資訊輸出。 | 它側重於資料輸入。 |
| 5 | 它基於星型模式、雪花模式和事實星座模式。 | 它基於實體關係模型。 |
| 6 | 它側重於資訊輸出。 | 它是面向應用程式的。 |
| 7 | 它包含歷史資料。 | 它包含當前資料。 |
| 8 | 它提供彙總和合並的資料。 | 它提供原始和高度詳細的資料。 |
| 9 | 它提供資料的彙總和多維檢視。 | 它提供資料的詳細和平面關係檢視。 |
| 10 | 使用者數量為數百。 | 使用者數量為數千。 |
| 11 | 訪問的記錄數以百萬計。 | 訪問的記錄數以十計。 |
| 12 | 資料庫大小從 100GB 到 100 TB。 | 資料庫大小從 100 MB 到 100 GB。 |
| 13 | 這些非常靈活。 | 它提供高效能。 |