- AWS Glue 教程
- AWS Glue - 首頁
- AWS Glue - 簡介
- AWS Glue - 入門指南
- AWS Glue - 資料目錄
- AWS Glue - Amazon S3 整合
- AWS Glue - 爬蟲
- AWS Glue - 效能最佳化
- AWS Glue - 成本最佳化
- AWS Glue 資源
- AWS Glue - 快速指南
- AWS Glue - 資源
- AWS Glue - 討論
AWS Glue - 資料目錄
什麼是資料目錄?
AWS Glue 資料目錄是一個儲存資料元資料資訊的中央儲存庫。簡單來說,資料目錄就像一個數據字典,它儲存了資料的結構、資料的位置以及如何使用查詢訪問資料等詳細資訊。這些元資料資訊對於管理和組織大量資料非常重要。
您可以將資料儲存在 Amazon S3、Redshift 或 AWS 中的任何其他位置。AWS Glue 資料目錄的主要作用是集中管理資料並使其可供分析。
資料目錄的關鍵特性
下面列出了一些 AWS Glue 資料目錄的關鍵特性:
- 自動資料檢測 - AWS Glue 爬蟲掃描您的資料來源,識別模式,並自動編目元資料。這些資料儲存在 AWS Glue 資料目錄中。
- 集中式元資料管理 - 資料目錄的關鍵特性之一是它將所有元資料集中在一個地方。因此,使用者無需手動定義資料。它還有助於更輕鬆地管理大型資料環境。
- 與 AWS 服務整合 - AWS Glue 資料目錄可以輕鬆地與 AWS 服務(如 Amazon Athena、Redshift 和 SageMaker)整合。這種整合允許使用者執行查詢或構建機器學習模型,而無需手動處理資料。
如何使用 AWS Glue 資料目錄?
使用 AWS Glue 資料目錄非常簡單。首先,您需要建立一個數據庫,用於儲存資料集的元資料。我們在上一節中討論了建立資料庫的方法。
擁有資料庫後,您需要建立一個 AWS Glue 爬蟲,它將自動掃描您的資料來源。爬蟲識別資料結構並使用元資料(如表名、列和資料型別)更新資料目錄。然後,可以使用 Amazon Athena 等工具查詢這些元資料。
使用 Glue 資料目錄管理元資料
您擁有可供查詢的元資料,但對於處理大量資料的組織來說,有效地管理這些元資料非常重要。在學習管理元資料的方法之前,瞭解這些元資料至關重要。
瞭解元資料
元資料是關於資料的資料。它提供以下重要資訊:
- 模式 - 它表示資料集的結構。它包括表、列和資料型別。
- 位置 - 顧名思義,它是儲存資料 AWS 的位置。可以是 Amazon S3 儲存桶或 Amazon Redshift 等資料庫。
- 描述 - 它提供有關資料的其他資訊。可能包括其用途以及它起源的來源。
管理元資料的方法
以下是一些您可以用來管理元資料的方法:
1. 手動編輯元資料
雖然 AWS 爬蟲的自動資料檢測已經足夠,但您也可以手動編輯資料。要手動編輯元資料,首先在資料目錄中找到您的資料庫和表。現在,您可以單擊要編輯的特定表。您可以編輯其屬性、列和資料型別。
2. 使用標籤編輯元資料
標籤有助於更有效地組織和管理元資料。您可以使用鍵值對標記資料庫和表,以便輕鬆地對其進行分類。
標籤還可以增強元資料的可搜尋性,這使得在大型集合中更容易找到特定的資料集。
廣告