資料提取的各種技術是什麼?
資料正迅速成為數字經濟的生命線,隨著越來越多的組織轉向線上運營,資料的價值正在迅速提高。為了發揮作用,資料必須被收集並轉換為可以分析的格式。
資料收集是透過分析和商業智慧應用程式利用資料實現企業增長的第一步。
什麼是資料提取?
資料提取是指分析和爬取資料來源(例如資料庫)的過程,以特定模式恢復關鍵資訊。資料會進一步處理,包括元資料和其他資料整合;這是資料工作流程中的另一步驟。
非結構化資料來源和各種資料格式佔大多數資料提取。表、索引和分析都可以用於儲存非結構化資料。
資料倉庫中的資料可以來自各種來源,資料倉庫必須使用三種不同的方法來使用它。這些過程稱為提取、轉換和載入 (ETL)。
資料提取包括從無組織的資料來源中檢索資訊。然後將提取的資料匯入關係資料庫的暫存區。透過應用程式程式設計介面查詢源系統以獲取資料,並應用提取邏輯。由於此過程,資料現在已準備好經歷 ETL 過程的轉換階段。
為什麼我們需要資料庫提取?
資料庫提取透過識別實現業務目標最相關的資訊來推動整個 ETL 過程。例如,客戶資訊可以從非結構化、半結構化或結構化資料來源中提取。
假設貴公司的利潤由於客戶流失而下降。每個月,您都會保留一份記錄,其中顯示所有現有客戶及其流失狀態的列表。要研究流失率漂移,您需要提取和聚合具有流失狀態的資料。此資料可以幫助您確定是否可以留住客戶並制定必要的措施(例如改善客戶服務)以降低營業額。
有哪些型別的資料提取?
從最廣泛的意義上講,組織提取兩種型別的資料:
非結構化資料
非結構化資料不會以標準化或結構化的格式儲存在資料庫中。人類和機器生成的非結構化資料非常豐富。音訊、電子郵件、地理空間、感測器和監控資料都是常見的例子,它們通常來自物聯網 (IoT)。在提取非結構化資料之前,企業必須首先執行資料準備和清理操作,例如刪除重複結果、刪除多餘符號以及確定如何處理缺失值。
結構化資料
結構化資料以標準化的方式儲存和管理在事務系統中。SQL 資料庫表中的行表示結構化資料。企業在處理結構化資料時通常會從源系統提取資訊。
企業可以提取各種組織和非結構化資料以滿足其業務目標。但是,檢索的資料型別通常屬於以下三類之一:
**運營資訊** - 許多組織收集與日常操作和程式相關的資料,以更好地瞭解結果並提高運營效率。
**客戶資訊** - 企業經常收集客戶姓名、聯絡方式、購買歷史記錄和其他資料,用於營銷和廣告目的。
**財務資訊** - 企業可以透過提取銷售額、購買費用和競爭價格來跟蹤業績並執行戰略規劃。
資料提取技術
從邏輯和物理的角度來看,預計要提取的資料量以及 ETL 過程中的階段(初始載入或資料維護)也可能影響提取方式。從本質上講,您必須確定如何從概念上和物理上提取資料。
邏輯提取方法
邏輯提取可以分為兩種型別:
完全提取
資料完全從源系統中提取。無需跟蹤資料來源更改,因為此提取反映了上次成功提取後源系統上儲存的所有資訊。
源資料將按其當前狀態交付,無需在源站點上提供其他邏輯資訊(例如時間戳)。特定表的匯出檔案或掃描整個源表的遠端 SQL 查詢是兩種完全提取的示例。
增量提取
在給定時間,只會提取自過去特定事件以來發生更改的資料。此事件可能是提取過程的結束,也可能是更復雜的業務事件,例如財政期間預訂的最後一天。為了檢測此增量更改,必須有一種方法來識別自此確切時間事件以來所有已更改的資訊。
此資訊可以由源資料本身提供,例如指示上次更改時間戳的應用程式列,或者由更改表提供,其中單獨的機制跟蹤修改以及原始事務。在大多數情況下,使用後一種選項需要向源系統新增提取邏輯。
作為提取過程的一部分,許多資料倉庫不應用任何更改捕獲演算法。相反,源系統中的完整表將提取到資料倉庫或暫存區,並將這些表與先前的源系統提取進行比較以檢測已更改的資料。雖然此策略可能對源系統的影響很小,但它會給資料倉庫過程帶來壓力,尤其是在資料量很大的情況下。
物理提取方法
根據所選的邏輯提取方法以及源站點的功能和限制,可以透過兩種方式物理提取資料。可以從源系統線上提取資料,也可以從資料庫離線提取資料。這種離線結構可能已經存在,也可能由提取例程建立。
物理提取可以透過以下方式完成:
線上提取
資訊直接從源系統獲取。提取過程可以直接連結到源系統以訪問源表,或連線到中間系統以預定義格式儲存資料(例如,快照日誌或更改表)。值得注意的是,中間系統不必與源系統在物理上分離。
在使用線上提取時,最好評估分散式事務是否使用源物件或準備好的源物件。
離線提取
資料有意地暫存到源系統外部,而不是直接從中提取。資料是由提取方法建立的,或者已經具有結構(重做日誌、存檔日誌或可傳輸表空間)。
應考慮以下結構:
平面檔案是具有預定義通用格式的檔案。為了進一步處理,需要有關源專案的更多資訊。
用於轉儲檔案的 Oracle 特定格式包含專案的相關資訊。
重做和存檔日誌
單獨的補充轉儲檔案包含相關資訊。
可移動表空間
資料結構
網路
關係型資料庫管理系統
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP