- ETL測試教程
- ETL測試 - 首頁
- ETL測試 - 簡介
- ETL測試 - 任務
- ETL與資料庫測試的比較
- ETL測試 - 分類
- ETL測試 - 挑戰
- ETL - 測試人員的角色
- ETL測試 - 技術
- ETL測試 - 流程
- ETL測試 - 場景(測試用例)
- ETL測試 - 效能
- ETL測試 - 可擴充套件性
- ETL測試 - 資料準確性
- ETL測試 - 元資料
- ETL測試 - 資料轉換
- ETL測試 - 資料質量
- ETL測試 - 資料完整性
- ETL測試 - 備份恢復
- ETL測試 - 自動化
- ETL測試 - 最佳實踐
- ETL測試 - 面試問題
- ETL測試有用資源
- ETL測試 - 快速指南
- ETL測試 - 有用資源
- ETL測試 - 討論
ETL測試 – 簡介
資料倉庫系統中的資料是使用ETL(提取、轉換、載入)工具載入的。顧名思義,它執行以下三個操作:
從您的事務系統中提取資料,該系統可以是Oracle、Microsoft或任何其他關係資料庫;
透過執行資料清洗操作來轉換資料;然後
將資料載入到OLAP資料倉庫中。
您還可以使用ETL工具從平面檔案(如電子表格和CSV檔案)中提取資料,並將其載入到OLAP資料倉庫中,以進行資料分析和報告。讓我們來看一個例子來更好地理解它。
示例
假設有一家制造公司擁有多個部門,例如銷售、人力資源、物料管理、EWM等。所有這些部門都有各自的資料庫,它們用於維護與其工作相關的資料,並且每個資料庫都有不同的技術、架構、表名、列等。現在,如果公司想分析歷史資料並生成報表,則應將所有這些資料來源中的資料提取並載入到資料倉庫中,以儲存用於分析工作。
ETL工具從所有這些異構資料來源中提取資料,轉換資料(例如應用計算、連線欄位、鍵、刪除不正確的資料欄位等),並將其載入到資料倉庫中。之後,您可以使用各種商業智慧(BI)工具來使用此資料生成有意義的報表、儀表板和視覺化。
ETL工具和BI工具的區別
ETL工具用於從不同的資料來源提取資料、轉換資料並將其載入到DW系統中;但是,BI工具用於為終端使用者生成互動式和即席報表、為高階管理人員生成儀表板、為每月、每季度和每年的董事會會議生成資料視覺化。
最常見的ETL工具包括:SAP BO Data Services (BODS)、Informatica – PowerCenter、Microsoft – SSIS、Oracle Data Integrator ODI、Talend Open Studio、Clover ETL開源等。
一些流行的BI工具包括:SAP Business Objects、SAP Lumira、IBM Cognos、JasperSoft、Microsoft BI平臺、Tableau、Oracle Business Intelligence Enterprise Edition等。
ETL流程
現在讓我們更詳細地討論ETL過程中涉及的關鍵步驟:
資料提取
它涉及從不同的異構資料來源提取資料。從事務系統提取資料的方式因需求和使用的ETL工具而異。通常透過在非營業時間執行計劃作業來完成,例如在晚上或週末執行作業。
資料轉換
它涉及將資料轉換為適合輕鬆載入到DW系統的格式。資料轉換涉及應用計算、連線以及在資料上定義主鍵和外部索引鍵。例如,如果您想要資料庫中不存在的總收入百分比,您將在轉換中應用百分比公式並載入資料。同樣,如果您在不同的列中擁有使用者的姓名和姓氏,則可以在載入資料之前應用連線操作。某些資料不需要任何轉換;此類資料稱為**直接移動**或**直通資料**。
資料轉換還包括資料校正和資料清洗、刪除不正確的資料、不完整的資料格式以及修復資料錯誤。它還包括在將資料載入到DW系統之前進行資料完整性和格式化不相容的資料。
將資料載入到DW系統
它涉及將資料載入到DW系統中以進行分析報告和資訊處理。目標系統可以是簡單的分隔符平面檔案或資料倉庫。
ETL工具功能
典型的基於ETL工具的資料倉庫使用暫存區、資料整合和訪問層來執行其功能。它通常是一個三層架構。
**暫存層** - 暫存層或暫存資料庫用於儲存從不同的源資料系統提取的資料。
**資料整合層** - 整合層轉換來自暫存層的資料並將資料移動到資料庫,在該資料庫中,資料被排列成層次結構組,通常稱為**維度**,以及**事實**和**聚合事實**。DW系統中事實和維度表的組合稱為**模式**。
**訪問層** - 訪問層由終端使用者使用,用於檢索資料以進行分析報告和資訊處理。
下圖顯示了三層如何相互互動。