如何使用 Matplotlib 繪製 PySpark SQL 結果?


要使用 Matplotlib 繪製 PySpark SQL 結果,我們可以採取以下步驟:

  • 設定圖形大小並調整子圖之間和周圍的邊距。
  • 獲取 Spark 功能的主要入口點的例項。
  • 獲取與儲存在 Hive 中的資料整合的 Spark SQL 變體的例項。
  • 將記錄列表作為元組。
  • 分發本地 Python 集合以形成 RDD。
  • 將列表記錄對映為 DB 架構。
  • 獲取架構例項以在"my_table" 中進行條目。
  • 在表中插入記錄。
  • 讀取 SQL 查詢,檢索記錄。
  • 將獲取的記錄轉換成資料幀。
  • 使用name 屬性設定索引並繪製它們。
  • 要顯示圖形,使用show() 方法。

示例

from pyspark.sql import Row
from pyspark.sql import HiveContext
import pyspark
import matplotlib.pyplot as plt

plt.rcParams["figure.figsize"] = [7.50, 3.50]
plt.rcParams["figure.autolayout"] = True

sc = pyspark.SparkContext()
sqlContext = HiveContext(sc)

test_list = [(1, 'John'), (2, 'James'), (3, 'Jack'), (4, 'Joe')]
rdd = sc.parallelize(test_list)
people = rdd.map(lambda x: Row(id=int(x[0]), name=x[1]))
schemaPeople = sqlContext.createDataFrame(people)
sqlContext.registerDataFrameAsTable(schemaPeople, "my_table")

df = sqlContext.sql("Select * from my_table")
df = df.toPandas()
df.set_index('name').plot()

plt.show()

輸出

更新時間:07-Jul-2021

3K+ 瀏覽量

開啟您的 職業生涯

完成課程獲取認證

開始
廣告
© . All rights reserved.