- AWS Glue 教程
- AWS Glue - 首頁
- AWS Glue - 簡介
- AWS Glue - 入門
- AWS Glue - 資料目錄
- AWS Glue - Amazon S3 整合
- AWS Glue - 爬蟲
- AWS Glue - 效能最佳化
- AWS Glue - 成本最佳化
- AWS Glue 資源
- AWS Glue - 快速指南
- AWS Glue - 資源
- AWS Glue - 討論
AWS Glue - 成本最佳化
AWS Glue 定價結構
AWS Glue 的定價基於按需付費模型,這意味著您只需為使用的資源付費。AWS Glue 費用分為多個組成部分。費用根據您使用服務的方式而有所不同。
以下是 AWS Glue 定價的一些關鍵因素:
資料處理單元 (DPU)
AWS Glue 中的資料處理單元 (DPU) 是 CPU、記憶體和網路資源的組合。您根據在 ETL 作業執行期間使用的 DPU 數量付費。
執行 Glue ETL 作業的成本按秒計算,最短計費時間為 1 分鐘。
AWS Glue 爬蟲
爬蟲會自動掃描您的資料以提取元資料並編目 Glue 資料。Glue 爬蟲按 DPU 小時計費,最短計費時間為 10 分鐘。
AWS Glue 資料目錄
Glue 資料目錄根據儲存在目錄中的物件數量(例如資料庫、表和分割槽)計費。AWS 為 Glue 資料目錄提供每月 100 萬個儲存物件和 100 萬次請求的免費套餐。
開發端點
開發端點允許您互動式建立和測試 ETL 指令碼。其定價基於分配給開發端點的 DPU。
降低 AWS Glue 成本的技巧
AWS Glue 為使用者提供了強大的資料管理和處理工具,但如果管理不當,成本可能會增加。
在本節中,我們重點介紹了一些降低 AWS Glue 成本的策略:
最佳化資料處理單元 (DPU)
配置 AWS Glue 作業時,請嘗試僅分配所需的 DPU 數量。這是因為使用超過必要的 DPU 會增加您的成本。
您應該使用 AWS CloudWatch 監控 Glue 作業的資源使用情況。為了管理成本,您可以根據實際記憶體和 CPU 使用情況調整 DPU。
最小化爬蟲執行次數
與其持續執行爬蟲,不如將其安排在僅需要發現或編目新資料時執行。
與其在整個資料集上執行爬蟲,不如將其限制在特定的分割槽或資料夾中。這將減少處理時間和成本。
明智地使用 Glue 資料目錄
您可以透過將儲存的物件數量保持在 100 萬以下來僅使用 Glue 資料目錄的免費套餐。
您應定期檢查 Glue 資料目錄並刪除過時或未使用的表和分割槽,以避免不必要的費用。
將免費套餐用於開發端點
如前所述,開發端點按小時計費。因此,請嘗試在不使用時終止它們。
最佳化 ETL 作業
您可以使用下推謂詞在源處過濾資料,以減少 Glue 作業處理的資料量。
您應該使用資料分割槽策略來最佳化查詢效能。
監控和分析成本
您應該使用AWS 成本瀏覽器跟蹤您的 Glue 使用情況。您還可以設定賬單警報,以便在 Glue 成本超過某個限制時通知您。