- Spark SQL 教程
- Spark SQL - 首頁
- Spark - 簡介
- Spark - RDD
- Spark - 安裝
- Spark SQL - 簡介
- Spark SQL - 資料幀
- Spark SQL - 資料來源
- Spark SQL 有用資源
- Spark SQL - 快速指南
- Spark SQL - 有用資源
- Spark SQL - 討論
Spark SQL - 資料來源
DataFrame 介面允許不同的 DataSources 在 Spark SQL 上工作。這是一個臨時表,可以作為普通的 RDD 執行。將 DataFrame 註冊為表後,可以在其資料上執行 SQL 查詢。
在本章中,我們將描述使用不同 Spark DataSources 載入和儲存資料的一般方法。接下來,我們將詳細討論內建資料來源的具體選項。
SparkSQL 中提供不同型別的資料來源,以下列出其中一些 −
| 序號 | 資料來源 |
|---|---|
| 1 | JSON 資料集
Spark SQL 可以自動獲取 JSON 資料集的模式,並將其載入為 DataFrame。 |
| 2 | Hive 表
Hive 與 Spark 庫捆綁在一起作為 HiveContext,後者繼承自 SQLContext。 |
| 3 | Parquet 檔案
Parquet 是一種列式格式,受很多資料處理系統支援。 |
廣告