AWS Glue - 快速入門

為您的第一個作業設定 AWS Glue

按照以下步驟設定您的第一個 AWS Glue 作業：

您必須擁有一個AWS 賬戶才能使用AWS Glue。您應該擁有IAM 角色。它允許 AWS Glue 訪問您在 Amazon S3、RDS 或任何其他資料來源中的資料。

此外，您應該將資料儲存在 Amazon S3、RDS 或其他受支援的資料庫中。

首先，在 Glue 資料目錄中建立一個數據庫。接下來，您需要設定一個爬蟲來掃描和分類您的資料來源（例如 Amazon S3）。

爬蟲的作用是自動檢測資料型別並在您的 Glue 資料目錄中建立元資料表。

資料編目完成後，轉到AWS Glue 控制檯並選擇作業。然後，單擊新增作業以建立一個新的 ETL 作業。

接下來，您需要配置作業。使用以下選項進行配置：

這是可選的，但最好在您的作業指令碼中新增轉換或過濾器。

設定完成後，檢視作業設定並單擊執行作業。AWS Glue 將根據定義的 ETL 指令碼開始處理資料。

現在您可以在AWS Glue 控制檯的“作業”部分監控作業進度。

要驗證輸出，作業完成後，檢查目標位置（例如 Amazon S3）。傳輸的資料應成功載入到那裡。

AWS Glue 的關鍵元件之一是爬蟲，它會自動發現新資料，識別其模式，並相應地更新資料目錄。以下是為您的資料建立 AWS Glue 爬蟲和資料庫的步驟。

在 AWS Glue 中建立爬蟲之前，您需要設定一個資料庫。此資料庫將充當資料來源元資料的容器。

按照以下步驟設定資料庫：

首先，轉到AWS Glue 控制檯並導航到爬蟲部分。接下來，單擊建立爬蟲按鈕。

現在，輸入爬蟲的名稱（例如，my-data-crawler）。

您還需要定義資料來源。這可以是 Amazon S3、DynamoDB 或任何儲存您資料的受支援資料來源。

接下來，在配置安全設定部分，設定允許 AWS Glue 訪問您的資料的IAM 角色。然後，指定您之前建立的目標資料庫。爬蟲將在其中儲存其發現的元資料。

您可以將爬蟲安排為按需執行或定期執行以保持元資料最新。最後，檢視您的設定並單擊完成。

設定爬蟲後，首先返回 Glue 控制檯的“爬蟲”部分並選擇您新建立的爬蟲。

接下來，單擊執行爬蟲以啟動該過程。爬蟲完成後，它將使用它發現的每個資料集的表和元資料填充 Glue 資料目錄。

列印頁面