AWS Glue - 資料目錄



什麼是資料目錄?

AWS Glue 資料目錄是一個儲存資料元資料資訊的中央儲存庫。簡單來說,資料目錄就像一個數據字典,它儲存了資料的結構、資料的位置以及如何使用查詢訪問資料等詳細資訊。這些元資料資訊對於管理和組織大量資料非常重要。

您可以將資料儲存在 Amazon S3、Redshift 或 AWS 中的任何其他位置。AWS Glue 資料目錄的主要作用是集中管理資料並使其可供分析。

資料目錄的關鍵特性

下面列出了一些 AWS Glue 資料目錄的關鍵特性:

  • 自動資料檢測 - AWS Glue 爬蟲掃描您的資料來源,識別模式,並自動編目元資料。這些資料儲存在 AWS Glue 資料目錄中。
  • 集中式元資料管理 - 資料目錄的關鍵特性之一是它將所有元資料集中在一個地方。因此,使用者無需手動定義資料。它還有助於更輕鬆地管理大型資料環境。
  • 與 AWS 服務整合 - AWS Glue 資料目錄可以輕鬆地與 AWS 服務(如 Amazon Athena、Redshift 和 SageMaker)整合。這種整合允許使用者執行查詢或構建機器學習模型,而無需手動處理資料。

如何使用 AWS Glue 資料目錄?

使用 AWS Glue 資料目錄非常簡單。首先,您需要建立一個數據庫,用於儲存資料集的元資料。我們在上一節中討論了建立資料庫的方法。

擁有資料庫後,您需要建立一個 AWS Glue 爬蟲,它將自動掃描您的資料來源。爬蟲識別資料結構並使用元資料(如表名、列和資料型別)更新資料目錄。然後,可以使用 Amazon Athena 等工具查詢這些元資料。

使用 Glue 資料目錄管理元資料

您擁有可供查詢的元資料,但對於處理大量資料的組織來說,有效地管理這些元資料非常重要。在學習管理元資料的方法之前,瞭解這些元資料至關重要。

瞭解元資料

元資料是關於資料的資料。它提供以下重要資訊:

  • 模式 - 它表示資料集的結構。它包括表、列和資料型別。
  • 位置 - 顧名思義,它是儲存資料 AWS 的位置。可以是 Amazon S3 儲存桶或 Amazon Redshift 等資料庫。
  • 描述 - 它提供有關資料的其他資訊。可能包括其用途以及它起源的來源。

管理元資料的方法

以下是一些您可以用來管理元資料的方法:

1. 手動編輯元資料

雖然 AWS 爬蟲的自動資料檢測已經足夠,但您也可以手動編輯資料。要手動編輯元資料,首先在資料目錄中找到您的資料庫和表。現在,您可以單擊要編輯的特定表。您可以編輯其屬性、列和資料型別。

2. 使用標籤編輯元資料

標籤有助於更有效地組織和管理元資料。您可以使用鍵值對標記資料庫和表,以便輕鬆地對其進行分類。

標籤還可以增強元資料的可搜尋性,這使得在大型集合中更容易找到特定的資料集。

廣告

© . All rights reserved.