ETL - 簡介



ETL 代表提取、轉換和載入。ETL 工具從不同的 RDBMS 源系統提取資料,轉換資料(例如應用計算、連線等),然後將資料載入到資料倉庫系統。資料以維度表和事實表的形式載入到 DW 系統中。

提取

  • ETL 載入期間需要一個暫存區。需要暫存區的原因有很多。

  • 源系統僅在特定時間段內可用以提取資料。此時間段小於總資料載入時間。因此,暫存區允許您在時間段結束前從源系統提取資料並將其保留在暫存區中。

  • 當您想要將來自多個數據源的資料組合在一起或想要將兩個或多個系統連線在一起時,需要暫存區。例如,您將無法執行連線來自兩個物理上不同的資料庫的兩個表的 SQL 查詢。

  • 不同系統的提取資料時間段根據時區和運營時間而有所不同。

  • 從源系統提取的資料可用於多個數據倉庫系統、操作資料儲存等。

  • ETL 允許您執行復雜的轉換,並需要額外的區域來儲存資料。

ETL Extraction

轉換

在資料轉換中,您對提取的資料應用一組函式以將其載入到目標系統中。不需要任何轉換的資料稱為直接移動或直通資料。

您可以對從源系統提取的資料應用不同的轉換。例如,您可以執行自定義計算。如果您想要銷售收入的總和,而資料庫中沒有,則可以在轉換期間應用SUM公式並載入資料。

例如,如果您在表中以不同的列具有名字和姓氏,則可以在載入前使用連線。

載入

在載入階段,資料被載入到最終目標系統,它可以是平面檔案或資料倉庫系統。

廣告
© . All rights reserved.