ETL測試 – 簡介



資料倉庫系統中的資料是使用ETL(提取、轉換、載入)工具載入的。顧名思義,它執行以下三個操作:

  • 從您的事務系統中提取資料,該系統可以是Oracle、Microsoft或任何其他關係資料庫;

  • 透過執行資料清洗操作來轉換資料;然後

  • 將資料載入到OLAP資料倉庫中。

您還可以使用ETL工具從平面檔案(如電子表格和CSV檔案)中提取資料,並將其載入到OLAP資料倉庫中,以進行資料分析和報告。讓我們來看一個例子來更好地理解它。

示例

假設有一家制造公司擁有多個部門,例如銷售、人力資源、物料管理、EWM等。所有這些部門都有各自的資料庫,它們用於維護與其工作相關的資料,並且每個資料庫都有不同的技術、架構、表名、列等。現在,如果公司想分析歷史資料並生成報表,則應將所有這些資料來源中的資料提取並載入到資料倉庫中,以儲存用於分析工作。

ETL工具從所有這些異構資料來源中提取資料,轉換資料(例如應用計算、連線欄位、鍵、刪除不正確的資料欄位等),並將其載入到資料倉庫中。之後,您可以使用各種商業智慧(BI)工具來使用此資料生成有意義的報表、儀表板和視覺化。

ETL工具和BI工具的區別

ETL工具用於從不同的資料來源提取資料、轉換資料並將其載入到DW系統中;但是,BI工具用於為終端使用者生成互動式和即席報表、為高階管理人員生成儀表板、為每月、每季度和每年的董事會會議生成資料視覺化。

最常見的ETL工具包括:SAP BO Data Services (BODS)、Informatica – PowerCenter、Microsoft – SSIS、Oracle Data Integrator ODI、Talend Open Studio、Clover ETL開源等。

一些流行的BI工具包括:SAP Business Objects、SAP Lumira、IBM Cognos、JasperSoft、Microsoft BI平臺、Tableau、Oracle Business Intelligence Enterprise Edition等。

ETL流程

現在讓我們更詳細地討論ETL過程中涉及的關鍵步驟:

資料提取

它涉及從不同的異構資料來源提取資料。從事務系統提取資料的方式因需求和使用的ETL工具而異。通常透過在非營業時間執行計劃作業來完成,例如在晚上或週末執行作業。

Extracting Data

資料轉換

它涉及將資料轉換為適合輕鬆載入到DW系統的格式。資料轉換涉及應用計算、連線以及在資料上定義主鍵和外部索引鍵。例如,如果您想要資料庫中不存在的總收入百分比,您將在轉換中應用百分比公式並載入資料。同樣,如果您在不同的列中擁有使用者的姓名和姓氏,則可以在載入資料之前應用連線操作。某些資料不需要任何轉換;此類資料稱為**直接移動**或**直通資料**。

資料轉換還包括資料校正和資料清洗、刪除不正確的資料、不完整的資料格式以及修復資料錯誤。它還包括在將資料載入到DW系統之前進行資料完整性和格式化不相容的資料。

將資料載入到DW系統

它涉及將資料載入到DW系統中以進行分析報告和資訊處理。目標系統可以是簡單的分隔符平面檔案或資料倉庫。

ETL工具功能

典型的基於ETL工具的資料倉庫使用暫存區、資料整合和訪問層來執行其功能。它通常是一個三層架構。

  • **暫存層** - 暫存層或暫存資料庫用於儲存從不同的源資料系統提取的資料。

  • **資料整合層** - 整合層轉換來自暫存層的資料並將資料移動到資料庫,在該資料庫中,資料被排列成層次結構組,通常稱為**維度**,以及**事實**和**聚合事實**。DW系統中事實和維度表的組合稱為**模式**。

  • **訪問層** - 訪問層由終端使用者使用,用於檢索資料以進行分析報告和資訊處理。

下圖顯示了三層如何相互互動。

ETL Tool Functions
廣告
© . All rights reserved.