什麼是ETL?


ETL代表提取、轉換和載入。它是資料驅動型組織用於從多個來源收集資料,然後將其整合在一起以支援發現、報告、分析和決策的過程。

資料來源在型別、格式、數量和可靠性方面可能存在差異,因此需要對資料進行處理,以便在組合交付時提供幫助。目標資料儲存可以是資料庫、資料倉庫或資料湖,具體取決於目標和技術執行情況。ETL 的步驟如下:

提取 - 在提取過程中,ETL 識別資料並從其源複製資料,因此它可以將資料傳輸到目標資料儲存。資料可以來自結構化和非結構化源,包括檔案、電子郵件、業務軟體、資料庫、裝置、感測器、第三方等。

執行提取的不同方法如下:

部分提取 - 如果源系統在記錄被修改時通知我們,則訪問資訊的最簡單方法是部分提取。

部分提取(帶更新通知) - 並非所有系統都能在更新發生時提供通知;但是,它們可以標記已轉換的記錄並支援提取此類記錄。

完整提取 - 某些系統根本無法識別哪些資料已更改。在這種情況下,完整提取是從系統中提取記錄的唯一可行性。此方法需要以相同格式複製最終提取,以便識別已建立的更改。

轉換 - 第二步包括將從源提取的原始資訊轉換為多種應用程式可以使用的格式。在此階段,資料已清理、對映和轉換,提供到特定的架構,因此它滿足操作需求。

此過程需要多種型別的轉換,以提供資料的質量和完整性。資料通常不會精確地載入到目標資料來源中,而是通常將其上傳到暫存資料庫中。

此步驟可確保在某些計劃未按預期進行時快速回滾。在此階段,它可以建立稽核文件以符合監管合規性,或診斷和修復某些資料問題。

載入 - ETL 將轉換後的資訊移動到目標資料儲存中。此步驟可能需要原始載入所有源資訊,或者可以增量載入源資訊中的更改。它可以即時載入資料或按計劃批處理載入資料。

更新於: 2022年2月15日

402 次瀏覽

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.