如何使用 Boto3 檢查正在執行的 Glue Job 的狀態?


問題陳述 - 使用 Python 中的 boto3 庫執行 Glue 作業並獲取其成功或失敗的狀態。例如,執行作業 run_s3_file_job 並獲取其狀態。

解決此問題的方法/演算法

步驟 1 - 匯入 boto3 和 botocore 異常以處理異常。

步驟 2 - job_name 是必填引數,而 arguments 是函式中的可選引數。一些作業需要引數才能執行。在這種情況下,引數可以作為字典傳遞。

例如:arguments = {‘arguments1’ = ‘value1’, ‘arguments2’ = ‘value2’}

如果作業不需要引數,則只需傳遞 job_name。

步驟 3 - 使用 boto3 庫建立 AWS 會話。確保在預設配置檔案中提到了 region_name。如果未提及,則在建立會話時顯式傳遞 region_name。

步驟 4 - 為 Glue 建立 AWS 客戶端。

步驟 5 - 現在使用 start_job_run 函式並傳遞 JobName 和(如果需要)引數。

步驟 6 - 作業啟動後,它會提供包含作業元資料的 job_run_id

步驟 7 - 使用函式 get_job_run 並從上一個函式的結果中傳遞引數 RunId。它返回有關狀態的字典。

步驟 8 - 現在,獲取作業的特定狀態。如果作業未完成,則狀態可能是 Running,否則為 SUCCEEDED/FAILED。

步驟 9 - 如果在檢查作業時出現任何錯誤,則處理通用異常。

示例

使用以下程式碼執行並獲取現有 Glue 作業的狀態 -

import boto3
from botocore.exceptions import ClientError

def run_glue_job_get_status(job_name, arguments = {}):
   session = boto3.session.Session()
   glue_client = session.client('glue')
   try:
      job_run_id = glue_client.start_job_run(JobName=job_name, Arguments=arguments)
      status_detail = glue_client.get_job_run(JobName=job_name, RunId = job_run_id.get("JobRunId"))
      status = status_detail.get("JobRun").get("JobRunState")
      return status
   except ClientError as e:
      raise Exception( "boto3 client error in run_glue_job_get_status: " + e.__str__())
   except Exception as e:
      raise Exception( "Unexpected error in run_glue_job_get_status: " + e.__str__())

#Get status 1st time
print(run_glue_job_get_status("run_s3_file_job"))
#Get status 2nd time after waiting
time.sleep(10)
print(run_glue_job_get_status("run_s3_file_job"))

輸出

##Get status 1st time
Running
#Get status 2nd time after waiting
SUCCEEDED

更新於: 2021年3月22日

3K+ 瀏覽量

啟動您的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.