如何使用 Matplotlib 繪製 PySpark SQL 結果？

要使用 Matplotlib 繪製 PySpark SQL 結果，我們可以採取以下步驟：

設定圖形大小並調整子圖之間和周圍的邊距。
獲取 Spark 功能的主要入口點的例項。
獲取與儲存在 Hive 中的資料整合的 Spark SQL 變體的例項。
將記錄列表作為元組。
分發本地 Python 集合以形成 RDD。
將列表記錄對映為 DB 架構。
獲取架構例項以在"my_table" 中進行條目。
在表中插入記錄。
讀取 SQL 查詢，檢索記錄。
將獲取的記錄轉換成資料幀。
使用name 屬性設定索引並繪製它們。
要顯示圖形，使用show() 方法。

示例

from pyspark.sql import Row
from pyspark.sql import HiveContext
import pyspark
import matplotlib.pyplot as plt

plt.rcParams["figure.figsize"] = [7.50, 3.50]
plt.rcParams["figure.autolayout"] = True

sc = pyspark.SparkContext()
sqlContext = HiveContext(sc)

test_list = [(1, 'John'), (2, 'James'), (3, 'Jack'), (4, 'Joe')]
rdd = sc.parallelize(test_list)
people = rdd.map(lambda x: Row(id=int(x[0]), name=x[1]))
schemaPeople = sqlContext.createDataFrame(people)
sqlContext.registerDataFrameAsTable(schemaPeople, "my_table")

df = sqlContext.sql("Select * from my_table")
df = df.toPandas()
df.set_index('name').plot()

plt.show()

輸出

Rishikesh Kumar Rishi

更新時間：07-Jul-2021

3K+ 瀏覽量

開啟您的職業生涯

完成課程獲取認證

開始

如何使用 Matplotlib 繪製 PySpark SQL 結果？

示例

輸出

開啟您的 職業生涯

開啟您的職業生涯