如何在Python中使用Boto3庫執行Glue作業?


問題陳述 − 使用Python中的boto3庫執行Glue作業。例如,執行作業run_s3_file_job。

解決此問題的方案/演算法

步驟1 − 匯入boto3和botocore異常以處理異常。

步驟2 − job_name是函式中的必填引數,而arguments是可選引數。一些作業需要引數才能執行。在這種情況下,引數可以作為字典傳遞。

例如:arguments = {‘arguments1’ = ‘value1’, ‘arguments2’ = ‘value2’}

如果作業不需要引數,則只需傳遞job_name。

步驟3 − 使用boto3庫建立一個AWS會話。確保在預設配置檔案中提到了region_name。如果沒有提到,則在建立會話時顯式傳遞region_name。

步驟4 − 為Glue建立一個AWS客戶端。

步驟5 − 現在使用start_job_run函式並根據需要傳遞JobName和arguments。

步驟6 − 作業啟動後,它將使用作業的元資料提供job_run_id。

步驟7 − 如果在檢查作業時出現問題,請處理通用異常。

示例

使用以下程式碼執行現有的Glue作業:

import boto3
from botocore.exceptions import ClientError

def run_glue_job(job_name, arguments = {}):
   session = boto3.session.Session()
   glue_client = session.client('glue')
   try:
      job_run_id = glue_client.start_job_run(JobName=job_name, Arguments=arguments)
   return job_run_id
   except ClientError as e:
      raise Exception( "boto3 client error in run_glue_job: " + e.__str__())
   except Exception as e:
      raise Exception( "Unexpected error in run_glue_job: " + e.__str__())

print(run_glue_job("run_s3_file_job"))

輸出

{'JobRunId':
'jr_5f8136286322ce5b7d0387e28df6742abc6f5e6892751431692ffd717f45fc00',
'ResponseMetadata': {'RequestId': '36c48542-a060-468b-83ccb067a540bc3c', 'HTTPStatusCode': 200, 'HTTPHeaders': {'date': 'Sat, 13
Feb 2021 13:36:50 GMT', 'content-type': 'application/x-amz-json-1.1',
'content-length': '82', 'connection': 'keep-alive', 'x-amzn-requestid':
'36c48542-a060-468b-83cc-b067a540bc3c'}, 'RetryAttempts': 0}}

更新於:2021年3月22日

2K+ 瀏覽量

啟動您的職業生涯

完成課程獲得認證

開始學習
廣告