- AWS Glue 教程
- AWS Glue - 首頁
- AWS Glue - 簡介
- AWS Glue - 入門指南
- AWS Glue - 資料目錄
- AWS Glue - Amazon S3 整合
- AWS Glue - 爬蟲
- AWS Glue - 效能最佳化
- AWS Glue - 成本最佳化
- AWS Glue 資源
- AWS Glue - 快速指南
- AWS Glue - 資源
- AWS Glue - 討論
AWS Glue - 爬蟲
我們在 AWS Glue 中定義的 ETL 作業使用資料目錄表作為源和目標。這些資料目錄表應始終保持更新。
爬蟲在 AWS Glue 中的作用是自動發現新資料,識別其模式,並相應地更新資料目錄。它們透過自動發現和編目資料來確保元資料始終是最新的。
爬蟲如何自動化資料發現和編目?
AWS Glue 爬蟲為我們提供了一種自動化資料發現和編目的有效方法。透過掃描資料來源、識別模式、生成元資料並將其組織到 Glue 資料目錄中,它們消除了手動資料管理的需要。這種自動化幫助企業確保其資料始終可用並保持最新狀態,以便進行分析。
讓我們看看爬蟲如何自動化資料發現和編目 -
1. 資料格式識別
建立和配置 AWS 爬蟲後,它們首先識別資料格式。它們足夠智慧,可以識別各種資料格式,例如 JSON、CSV、Avro、Parquet 和 ORC。爬蟲檢查定義的資料來源中檔案的格式和結構,以分類資料型別、模式和表。
2. 生成元資料
識別資料格式後,爬蟲會為每個表和資料集生成元資料。此元資料包括有關模式的資訊,例如列名、資料型別以及表之間的關係。
3. 編目資料
生成元資料後,爬蟲會透過將模式資訊儲存在 Glue 資料目錄中來自動編目資料。資料目錄將元資料組織成資料庫和表,其他 AWS 服務(如 Athena、Redshift 和 SageMaker)可以訪問這些資料庫和表以進行分析和機器學習。
4. 自動化排程
我們還可以安排爬蟲定期自動執行。這確保了新資料或更新的資料會不斷被發現和編目,而無需人工干預。它允許企業保持其資料目錄最新並隨時準備進行分析。
5. 資料轉換
AWS 爬蟲自動化資料發現和編目。爬蟲生成的元資料對於設定 AWS Glue 作業以轉換資料非常重要。編目後,可以使用 Glue 的 ETL 功能對資料進行清理、豐富和轉換。
廣告