如何使用 Boto3 遍歷 AWS Glue 中的所有作業
在本文中,我們將瞭解如何遍歷 AWS Glue 中的所有作業。
示例
問題陳述:在 Python 中使用boto3庫來遍歷在您的賬戶中建立的 AWS Glue 資料目錄中的作業。
解決此問題的方法/演算法
步驟 1:匯入boto3和botocore異常以處理異常。
步驟 2:max_items、page_size和starting_token是此函式的可選引數。
max_items表示要返回的記錄總數。如果可用記錄數 > max_items,則響應中將提供NextToken以恢復分頁。
page_size表示每個頁面的大小。
starting_token有助於分頁,它使用先前響應中的NextToken。
步驟 3:使用boto3 庫建立 AWS 會話。確保在預設配置檔案中提到了region_name。如果未提及,則在建立會話時顯式傳遞region_name。
步驟 4:為 Glue 建立 AWS 客戶端。
步驟 5:使用get_jobs建立一個paginator物件,其中包含所有爬蟲的詳細資訊。
步驟 5:呼叫paginate函式並將max_items、page_size和starting_token作為PaginationConfig引數傳遞。
步驟 6:它根據max_size和page_size返回記錄數。
步驟 7:如果在分頁過程中出現錯誤,則處理通用異常。
程式碼示例
使用以下程式碼遍歷使用者賬戶中建立的所有作業:
import boto3 from botocore.exceptions import ClientError def paginate_through_jobs(max_items=None:int,page_size=None:int, starting_token=None:string): session = boto3.session.Session() glue_client = session.client('glue') try: paginator = glue_client.get_paginator('get_jobs') response = paginator.paginate(PaginationConfig={ 'MaxItems':max_items, 'PageSize':page_size, 'StartingToken':starting_token} ) return response except ClientError as e: raise Exception("boto3 client error in paginate_through_jobs: " + e.__str__()) except Exception as e: raise Exception("Unexpected error in paginate_through_jobs: " + e.__str__()) a = paginate_through_jobs(2,5) print(*a)
輸出
{'Jobs': [{'Name': 'PythonShellTest1', 'Role': 'arn:aws:iam::7***********:role/dev-edl-glue-role', 'CreatedOn': datetime.datetime(2021, 1, 6, 19, 59, 19, 387000, tzinfo=tzlocal()), 'LastModifiedOn': datetime.datetime(2021, 2, 9, 21, 47, 31, 614000, tzinfo=tzlocal()), 'ExecutionProperty': {'MaxConcurrentRuns': 1}, 'Command': {'Name': 'pythonshell', 'ScriptLocation': s3://pythonShellTest/test1/*', 'PythonVersion': '3'}, 'DefaultArguments': {'--job-bookmark-option': 'job-bookmark-disable', '--job-language': 'python'}, 'MaxRetries': 0, 'AllocatedCapacity': 0, 'Timeout': 2880, 'MaxCapacity': 0.0625, 'GlueVersion': '1.0'}, {'Name': 'pythonSHELL_14012021', 'Role': 'arn:aws:iam::7*************:role/dev-edl-glue-role', 'CreatedOn': datetime.datetime(2021, 1, 14, 20, 22, 40, 965000, tzinfo=tzlocal()), 'LastModifiedOn': datetime.datetime(2021, 1, 14, 20, 22, 40, 965000, tzinfo=tzlocal()), 'ExecutionProperty': {'MaxConcurrentRuns': 1}, 'Command': {'Name': 'pythonshell', 'DefaultArguments': {'--job-bookmark-option': 'job-bookmark-disable'}, 'MaxRetries': 0, 'AllocatedCapacity': 0, 'Timeout': 2880, 'MaxCapacity': 0.0625, 'GlueVersion': '1.0'}], 'NextToken': 'eyJleHBpcmF0aW9uIjp7InNlY29uZHMiOjE2MTc0NTUzOTYsIm5hbm9zIjo1MjUwMDAwMDB9LCJsYXN0RXZhbHVhdGVkS2V5Ijp7ImpvYk5hbWUiOnsicyI6IlRpY2tkYXRhLXBlcmZvcm1hbmNldGVzdC1qZXR0ZWxhIn0sImFjY291bnRJZCI6eyJzIjoiNzgyMjU4NDg1ODQxIn0sImpvYklkIjp7InMiOiJqXzkyZGQ5ZDNhMWRkOGY2NTJkYzA4MzNmMTM0ZTRiNDRhNmE0YzEzNWY0ZTYwZTkwNmYyOTBhY2NiZDZiMWIxZTcifX19', 'ResponseMetadata': {'RequestId': '3be6708e-*************-389', 'HTTPStatusCode': 200, 'HTTPHeaders': {'date': 'Fri, 02 Apr 2021 13:09:56 GMT', 'content-type': 'application/x-amz-json-1.1', 'content-length': '3182', 'connection': 'keep-alive', 'x-amzn-requestid': '3be6708e-*************-8389'}, 'RetryAttempts': 0}}
廣告