資料倉庫 - 概述



資料倉庫包含來自多個異構資料來源的資料,用於分析報告和決策制定。資料倉庫是一個集中存放來自不同資料來源和應用程式的資料的地方。

資料倉庫一詞最早是由比爾·英曼在 1990 年提出的。資料倉庫始終與操作資料庫分開儲存。

DW 系統中的資料從操作事務系統載入,如:

  • 銷售
  • 行銷
  • 人事
  • SCM 等

在將資料載入到 DW 系統進行資訊處理之前,資料可能會經過操作資料儲存或其他轉換。

資料倉庫用於報告和分析資訊,並存儲歷史資料和當前資料。DW 系統中的資料用於分析報告,該報告隨後被業務分析師、銷售經理或知識工作者用於決策制定。

Data Warehouse

在上面的圖片中,您可以看到資料正從多個異構資料源流入資料倉庫。資料倉庫的常見資料來源包括:

  • 操作資料庫
  • SAP 和非 SAP 應用程式
  • 平面檔案(xls、csv、txt 檔案)

資料倉庫中的資料由商業智慧 (BI) 使用者訪問,用於分析報告、資料探勘和分析。商業使用者、銷售經理和分析師使用這些資料進行決策制定,以確定未來策略。

資料倉庫的特徵

它是一箇中心資料儲存庫,其中儲存來自一個或多個異構資料來源的資料。DW 系統儲存當前資料和歷史資料。通常,DW 系統儲存 5-10 年的歷史資料。DW 系統始終與操作事務系統分開儲存。

DW 系統中的資料用於從季度到年度比較的不同型別的分析報告。

資料倉庫與操作資料庫

資料倉庫和操作資料庫之間的差異如下 -

  • 作業系統旨在用於已知的工作負載和事務,如更新使用者記錄、搜尋記錄等。但是,資料倉庫事務更復雜,表示一般形式的資料。

  • 作業系統包含組織的當前資料,而資料倉庫通常包含歷史資料。

  • 操作資料庫支援多重事務的並行處理。併發控制和恢復機制對於維持資料庫的一致性是必需的。

  • 操作資料庫查詢允許讀取和修改操作(插入、刪除和更新),而 OLAP 查詢只需對儲存的資料(選擇語句)擁有隻讀訪問。

資料倉庫的架構

進行資料倉庫包含資料清理、資料整合和資料整合。資料倉庫採用 3 層架構 -

資料來源層

它定義了資料如何進入資料倉庫。它涉及各種資料來源和操作事務系統、平面檔案、應用程式等。

整合層

它由操作資料儲存和暫存區域組成。暫存區域用於執行資料清理、資料轉換,並將資料從不同來源載入到資料倉庫。由於多個數據源可供不同時區提取,暫存區域用於儲存資料,然後對資料執行轉換。

演示層

這用於執行終端使用者的商業智慧報告。DW 系統中的資料由商業智慧使用者訪問,並用於報告和分析。

下圖顯示了資料倉庫系統的一般架構。

Data Warehouse Architecture

資料倉庫的特徵

以下是資料倉庫的主要特徵 -

  • 面向主題 - 在 DW 系統中,按業務主題(如股票計劃、股票、貸款等),而不是按應用程式對資料進行分類和儲存。

  • 整合 - 來自多個數據源的資料都整合到資料倉庫中。

  • 非易失性 - 資料倉庫中的資料是非易失性的。這意味著當資料載入到 DW 系統時,它不會被更改。

  • 時間變數 - 與僅包含當前資料的交易系統相比,DW 系統包含歷史資料。在資料倉庫中,您可以檢視 3 個月、6 個月、1 年、5 年等資料。

OLTP 與 OLAP

首先,OLTP 代表聯機事務處理,而 OLAP 代表聯機分析處理

在 OLTP 系統中,有大量短的聯機事務,例如插入、更新和刪除。

而在 OLTP 系統中,有效的測量是短事務的處理時間,並且非常短。它控制多訪問環境中的資料完整性。對於 OLTP 系統,每秒事務數衡量有效性。OLTP 資料倉庫系統包含當前和詳細資料,並保留在實體模型(3NF)中的模式中。

例如 -

零售商店中的日常交易系統,其中客戶記錄每天都會插入、更新和刪除。它提供更快的查詢處理。OLTP 資料庫包含詳細且當前的資料。用於儲存 OLTP 資料庫的模式是實體模型。

在 OLAP 系統中,與事務系統相比,事務的數量較少。執行的查詢本質上很複雜,涉及資料聚合。

什麼是聚合?

我們儲存聚合資料(例如按年(1 行)、按季度(4 行)、按月(12 行)等彙總)的表格,如果有人需要進行年與年之間的比較,則只處理一行。然而,在非聚合表中,它將比較所有行。這稱為聚合。

OLAP 系統中可以使用各種聚合函式,如 Sum、Avg、Max、Min 等。

例如 -

SELECT Avg(salary)
FROM employee
WHERE title = 'Programmer';

主要區別

以下是 OLAP 和 OLTP 系統之間的主要區別。

  • 索引 − OLTP 系統只有少數索引,而 OLAP 系統中有許多索引用於效能最佳化。

  • 連線 − 在 OLTP 系統中,連線和資料量很大,且是規範化的。然而,在 OLAP 系統中,連線較少且是非規範化的。

  • 聚合 − 在 OLTP 系統中,資料沒有聚合,而在 OLAP 資料庫中,使用了更多聚合。

  • 規範化 − OLTP 系統包含規範化資料,但在 OLAP 系統中,資料未規範化。

OLTP

資料市集與資料倉庫

資料市集專注於單一功能區域,表示資料倉庫最簡單的形式。考慮一個包含銷售、營銷、人力資源和財務資料的資料倉庫。資料市集專注於單個功能區域,如銷售或營銷。

Data Mart Vs Data Warehouse

在上圖中,你可以看到資料倉庫和資料市集之間的區別。

事實表與維度表

事實表表示執行分析的度量。它還包含維度鍵的外部索引鍵。

例如 − 每筆銷售都是一個事實。

客戶 ID 產品 ID 時間 ID 已售數量
1110 25 2 125
1210 28 4 252

維度表表示維度特徵。客戶維度可以包含姓名、電話號碼、性別等。

客戶 ID 客戶姓名 電話號碼 性別
1110 Sally 1113334444 F
1210 Adam 2225556666 M
廣告
© . All rights reserved.