資料工程 - 簡介



在資料工程中,資料處理和分析藉助高效能計算來完成。在計算領域,所採用的資料工程方法被稱為資料流程式設計。它將計算表示為有向圖,其中節點是不同的操作,邊表示資料流。增量計算等實現決定了資料處理的效率。

資料工程涉及建立用於管理資訊訪問和流動的系統和工具。在這裡,資料易於訪問、維護良好且隨時可供分析。資料工程師構建和管理資料基礎設施,使資料分析師和科學家更容易處理資料。

資料工程涉及開發、實施和維護將獨特資料轉換為高質量可靠資訊的系統。此資訊用於各種目的,例如機器學習和分析。資料工程結合了安全、資料管理、DataOps、資料架構和軟體工程的各個方面。資料工程是一個使資料來源可用於分析或機器學習的系統。

資料工程

資料儲存在各種各樣的應用程式中,決定如何儲存資料的一個關鍵因素是其用途。資料工程師透過壓縮、存檔和分割槽資料來最佳化儲存。

結構化資料通常需要聯機事務處理 (OLTP),為此通常使用資料庫。具有強大 ACID 保證和 SQL 查詢的關係資料庫曾經很常見。NoSQL 資料庫因其能夠水平擴充套件而越來越受歡迎,即使它們犧牲了 ACID 保證並減少了物件關係不匹配。

當結構化資料需要分析處理而不是事務處理時,通常使用資料倉庫。它們支援大規模資料分析並管理來自資料庫的資料流。資料工程師、業務分析師和資料科學家使用 SQL 或商業智慧軟體等工具訪問資料倉庫。

資料工程工具

資料湖是一個集中式儲存庫,允許儲存海量資料,無論是來自關係資料庫的結構化資料,還是半結構化和非結構化資料或二進位制資料。這可以透過微軟、亞馬遜或谷歌等公共雲中提供的服務來實現。

如果資料不太規範,則將其儲存為檔案。有不同的選項,例如:

  • 物件儲存在元資料的幫助下管理資料,有時會為每個檔案分配一個唯一的鍵,例如通用唯一識別符號 (UUID)。

  • 塊儲存將資料劃分為大小相等的塊,這些塊通常對應於硬碟驅動器或固態驅動器。

  • 檔案系統使用巢狀資料夾按層次結構組織資料。

大資料非常流行,並吸引了許多公司的興趣。通常,公司將大型工具用於小型資料問題,為最小資料部署複雜的系統。這種趨勢是由大資料工具的各種營銷策略驅動的。

資料科學家通常建立生產資料系統,但由於資料工程師的支援和資源有限,他們經常工作效率低下。資料科學家應該將時間集中在分析、機器學習和實驗上。當資料工程師處理基礎任務時,他們會建立一個堅實的基礎,使資料科學家能夠在各自的角色中脫穎而出。

廣告
© . All rights reserved.