BigQuery - 資料集

BigQuery 中的資料集是什麼？

資料集是存在於專案中的實體。資料集充當 BigQuery 表以及檢視、例程和機器學習模型的容器。

表不能獨立於資料集存在，因此在 BigQuery Studio 中建立新的資料來源時，必須建立資料集。

除了人機可讀名稱等屬性外，開發人員還必須在授權建立資料集時指定一個**位置**。這些位置與全球 Google 資料中心的物理位置相對應。

指定位置時，需要指定單個區域或多區域。例如，您不必選擇芝加哥的資料中心，而是指定“us-central-1”。

將資料集建立為多區域實體可以提供額外優勢，即當特定區域的資源無法跟上當前需求時，BigQuery 會更改位置。當前的多區域位於美洲（美國）或歐盟（歐洲）。

要建立資料集，請按照以下步驟操作。首先，導航到您的專案名稱並單擊三個點，這將觸發帶有**“建立資料集”**的彈出視窗 -

單擊“建立資料集”後，系統將提示您輸入 -

最終結果是一個數據集，它充當未來表、檢視和物化檢視的容器。

“共享”選項允許開發人員管理對資料集的訪問控制，以限制未經授權的使用者。

如果您是 BigQuery 的新手，也可能是 SQL 的新手，那麼您可能沒有生成要儲存和操作的資料。這是使用 BigQuery Studio 作為 SQL 沙箱的優勢之一。除了無伺服器基礎設施外，BigQuery 還提供數 TB 的樣本資料，供學生和專業人士學習和改進他們的 SQL 技能。

透過 Google Cloud 公共資料集計劃釋出，BigQuery 公共資料集儲存在其自身可公開訪問的專案中：**bigquery-public-data**。
根據每 TB 付費定價模式，開發人員每月最多可以免費查詢 1 TB 的資料。
與許多庫存資料集不同，表中包含的資料是真實的，也就是“雜亂的”，有時需要進行大量的轉換才能產生可操作的見解。

BigQuery 還提供了一些獨立於其 BigQuery 公共資料集的示例表，這些表可以在 **bigquery-public-data:samples** 表資料集中找到 -

訪問 BigQuery 公共資料集可能最重要的優勢在於，資料是從 BBC、Hacker News 和約翰·霍普金斯大學等真實資料來源中提取的。

列印頁面