AWS Glue - 簡介



AWS Glue 是亞馬遜網路服務 (AWS) 提供的一種完全託管的無伺服器資料整合雲服務。它旨在幫助使用者準備和轉換資料,以用於分析、機器學習和應用程式開發。使用 AWS Glue,您可以連線到 70 多個不同的資料來源,並在集中式資料目錄中管理您的資料。

作為一項無伺服器資料整合服務,AWS Glue 自動化了與 ETL(提取、轉換、載入)流程相關的大部分工作。它簡化了資料在各種來源和目標之間提取、清理、豐富和移動的過程。

AWS Glue 也非常容易與其他 AWS 服務(如 Amazon S3、RDS、Redshift 和 Athena)整合。此功能使其成為希望構建資料湖或資料倉庫的組織的理想選擇。

AWS Glue 的關鍵元件

下面描述了 AWS Glue 的關鍵元件:

1. Glue 資料目錄

Glue 資料目錄是一箇中央儲存庫,用於儲存有關您的資料元資料資訊。它會自動掃描和組織資料,以便使用者可以輕鬆搜尋、查詢和管理資料集。它還可以很好地與 AWS 工具(如 Redshift 和 Athena)連線,使使用者能夠流暢地訪問資料。

2. 爬蟲

我們在 AWS Glue 中定義的 ETL 作業使用資料目錄表作為源和目標。這些資料目錄表應始終保持更新。

爬蟲在 AWS Glue 中的作用是自動發現新資料,識別其模式,並相應地更新資料目錄。它們確保元資料始終是最新的。

3. Glue 作業

Glue 作業用於定義和管理 ETL 工作流。它們提取資料,使用 Apache Spark 對其進行轉換,並將其載入到目標系統中。您可以按需執行作業,或將其安排在指定的時間間隔執行。Glue 作業是資料轉換過程的核心。

4. 觸發器

藉助觸發器,使用者可以根據計劃或特定事件自動執行作業。觸發器的使用有助於自動化重複性任務或構建複雜的資料管道。

5. 作業筆記本

AWS Glue 使用 Jupyter Notebook 提供 IDE(互動式開發環境)。您可以互動式地執行查詢、分析資料和開發 Glue 作業。

6. Glue Studio

顧名思義,Glue Studio 是一個視覺化介面,用於建立、執行和監控 ETL 工作流,無需編寫程式碼。它對非技術使用者或不熟悉 Apache Spark 的使用者很有用。

AWS Glue 的功能

我們可以將 AWS Glue 的重要功能分為以下三類:

1. 發現和組織資料

AWS Glue 使您能夠以結構化的方式組織元資料,以便您可以輕鬆地在一個位置儲存、搜尋和管理所有資料。

AWS Glue 爬蟲會自動發現數據並將其整合到您的資料目錄中。它驗證並控制對資料庫和表的訪問。

2. 轉換、準備和清理資料以進行分析

您可以在 Glue Studio 中定義您的 ETL 流程,它會自動為此流程生成程式碼。AWS Glue 的作業筆記本提供了需要最少設定的無伺服器筆記本。使用這些筆記本,您可以快速開始您的專案。

AWS Glue 具有敏感資料檢測功能,允許您在資料湖和管道中定義、識別和處理敏感資料。AWS Glue 允許使用者互動式地探索和準備資料

3. 構建和監控資料管道

您可以使用爬蟲或基於事件的觸發器自動執行作業和 AWS Glue 作業。它允許您使用您選擇的引擎(Apache Spark 或 Ray)執行作業。

您可以組織和管理不同爬蟲、作業和觸發器的 ETL 流程和整合活動。

廣告

© . All rights reserved.