什麼是資料提取?
提取是從源系統提取資訊的服務,以便在資料倉庫環境中提供更多幫助。它是ETL過程的第一個步驟。提取後,可以更改此資料並將其載入到資料倉庫中。資料倉庫的源系統通常是事務處理軟體。例如,用於銷售分析資料倉庫的源系統可以是一個訂單錄入系統,該系統記錄所有當前的訂單活動。
資料提取是指考慮資料並將其移動以從資料來源(例如資料庫)中獲取相關資訊的特定設計。完成進一步的資料處理,其中包括插入元資料和其他資料整合;這是資料工作流中的另一個過程。
大部分資料提取來自非結構化資料來源和多種資料結構。這些非結構化資料可以採用任何形式,包括表、索引和分析資料。
倉庫中的資料可能來自多個來源,資料倉庫需要三種不同的技術來使用傳入的記錄。這些過程稱為提取、轉換和載入 (ETL)。
資料提取過程包括從雜亂的資料來源檢索資訊。資料提取載入到關係資料庫的暫存操作中。因此,使用提取邏輯並使用軟體程式設計介面向源系統請求資料。
資料提取工具的型別
有各種型別的資料提取工具,如下所示:
**批處理工具** - 傳統的資料提取工具將這些資料批次構建,通常在非工作時間進行,以減少使用大量計算能力的影響。對於具有中等同質資料來源的封閉的內部部署環境,批處理提取解決方案可能是最佳方法。
**開源工具** - 考慮到支援框架和知識都在該領域,開源工具可能是預算有限軟體的最佳選擇。各種供應商也提供其產品的有限或“輕量級”解釋作為開源。
**基於雲的工具** - 基於雲的工具是新一代的提取產品。目標是將資料的即時提取作為ETL/ELT過程的一個組成部分,而基於雲的工具在這方面表現出色,利用雲提供的所有支援來支援資料儲存和分析。這些工具還解決了安全性和合規性問題,因為今天的雲供應商持續關注這些領域,從而無需在內部建立此類專業知識。
廣告
資料結構
網路
關係型資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP