AWS Glue - 快速入門



為您的第一個作業設定 AWS Glue

按照以下步驟設定您的第一個 AWS Glue 作業:

步驟 1:先決條件

您必須擁有一個AWS 賬戶才能使用AWS Glue。您應該擁有IAM 角色。它允許 AWS Glue 訪問您在 Amazon S3、RDS 或任何其他資料來源中的資料。

此外,您應該將資料儲存在 Amazon S3、RDS 或其他受支援的資料庫中。

步驟 2:設定 AWS Glue 資料目錄

首先,在 Glue 資料目錄中建立一個數據庫。接下來,您需要設定一個爬蟲來掃描和分類您的資料來源(例如 Amazon S3)。

爬蟲的作用是自動檢測資料型別並在您的 Glue 資料目錄中建立元資料表。

步驟 3:在 AWS Glue 中建立一個新作業

資料編目完成後,轉到AWS Glue 控制檯並選擇作業。然後,單擊新增作業以建立一個新的 ETL 作業。

接下來,您需要配置作業。使用以下選項進行配置:

  • 命名您的作業。
  • 選擇 Glue 將使用的IAM 角色
  • 選擇您的ETL 指令碼源(自動生成或自定義編寫)。
  • 定義資料來源(Amazon S3、RDS 等)和目標

這是可選的,但最好在您的作業指令碼中新增轉換過濾器

步驟 4:執行您的 Glue 作業

設定完成後,檢視作業設定並單擊執行作業。AWS Glue 將根據定義的 ETL 指令碼開始處理資料。

現在您可以在AWS Glue 控制檯的“作業”部分監控作業進度。

步驟 5:驗證輸出

要驗證輸出,作業完成後,檢查目標位置(例如 Amazon S3)。傳輸的資料應成功載入到那裡。

建立 AWS Glue 爬蟲和資料庫

AWS Glue 的關鍵元件之一是爬蟲,它會自動發現新資料,識別其模式,並相應地更新資料目錄。以下是為您的資料建立 AWS Glue 爬蟲和資料庫的步驟。

步驟 1:設定您的 AWS Glue 資料庫

在 AWS Glue 中建立爬蟲之前,您需要設定一個資料庫。此資料庫將充當資料來源元資料的容器。

按照以下步驟設定資料庫:

  • 首先,登入到 AWS Glue 控制檯。
  • 在左側導航窗格中,單擊資料目錄部分下的資料庫
  • 選擇新增資料庫並輸入資料庫名稱(例如,my-data-catalog)。
  • 最後,單擊建立按鈕,您的資料庫即可使用。
Setup Your AWS Glue Database

步驟 2:建立 AWS Glue 爬蟲

首先,轉到AWS Glue 控制檯並導航到爬蟲部分。接下來,單擊建立爬蟲按鈕。

Creating an AWS Glue Crawler

現在,輸入爬蟲的名稱(例如,my-data-crawler)。

Creating an AWS Glue Crawler

您還需要定義資料來源。這可以是 Amazon S3、DynamoDB 或任何儲存您資料的受支援資料來源。

接下來,在配置安全設定部分,設定允許 AWS Glue 訪問您的資料的IAM 角色。然後,指定您之前建立的目標資料庫。爬蟲將在其中儲存其發現的元資料。

您可以將爬蟲安排為按需執行或定期執行以保持元資料最新。最後,檢視您的設定並單擊完成

步驟 3:執行爬蟲

設定爬蟲後,首先返回 Glue 控制檯的“爬蟲”部分並選擇您新建立的爬蟲。

接下來,單擊執行爬蟲以啟動該過程。爬蟲完成後,它將使用它發現的每個資料集的表和元資料填充 Glue 資料目錄。

廣告
© . All rights reserved.