如何將字典列表轉換為 PySpark DataFrame？

Python 已經成為世界上最流行的程式語言之一，以其簡潔性、多功能性和龐大的庫和框架生態系統而聞名。除了 Python 之外，還有 PySpark，這是一個強大的大資料處理工具，它利用 Apache Spark 的分散式計算能力。透過將 Python 的易用性與 Spark 的可擴充套件性相結合，開發人員可以高效地處理大規模資料分析和處理任務。

在本教程中，我們將探討將字典列表轉換為 PySpark DataFrame 的過程，DataFrame 是 PySpark 中一種基本的資料結構，它可以高效地進行資料操作和分析。在本文的下一節中，我們將逐步詳細介紹此轉換過程，並藉助 PySpark 強大的資料處理功能。

如何將字典列表轉換為 PySpark DataFrame？

PySpark SQL 提供了一個程式設計介面，用於處理 Spark 中的結構化和半結構化資料，使我們能夠高效地執行各種資料操作和分析任務。構建在 Spark 分散式計算引擎之上的 DataFrame API 提供了一個高階抽象，類似於使用關係表。

為了說明將字典列表轉換為 PySpark DataFrame 的過程，讓我們使用示例資料來看一個實際示例。假設我們有以下字典列表，表示有關員工的資訊

# sample list of dictionaries
employee_data = [
    {"name": "Prince", "age": 30, "department": "Engineering"},
    {"name": "Mukul", "age": 35, "department": "Sales"},
    {"name": "Durgesh", "age": 28, "department": "Marketing"},
    {"name": "Doku", "age": 32, "department": "Finance"}
]

要將此字典列表轉換為 PySpark DataFrame，我們需要遵循一系列步驟。讓我們逐步完成每個步驟

步驟 1：匯入必要的模組並建立 SparkSession。

首先，我們需要建立一個 SparkSession，它是任何 Spark 功能的入口點。SparkSession 提供了一種方便的方式來與 Spark 互動，並使我們能夠配置應用程式的各個方面。它基本上為我們提供了基礎，我們可以利用 Spark 的強大功能在其之上構建資料處理和分析任務。

# create a SparkSession
spark = SparkSession.builder.getOrCreate()

步驟 2：從字典列表建立 PySpark RDD（彈性分散式資料集）。

現在我們已經建立了一個 SparkSession，下一步是將我們的字典列表轉換為 RDD。RDD 代表彈性分散式資料集，它充當分佈在叢集中的元素的容錯集合，允許對資料進行並行處理。為此，我們可以使用以下程式碼片段。

# Create a PySpark RDD
rdd = spark.sparkContext.parallelize(employee_data)

步驟 3：定義 DataFrame 的模式。模式指定資料型別和列名。

接下來，我們需要透過指定列名及其對應的資料型別來定義 DataFrame 的結構。此步驟確保 DataFrame 具有清晰且定義良好的結構。在我們的示例中，我們將建立一個包含三列的模式：“name”、“age”和“department”。透過顯式定義模式，我們為 DataFrame 建立了一個一致的結構，從而可以無縫地進行資料操作和分析。

考慮以下定義 DataFrame 模式程式碼。

from pyspark.sql.types import StructType, StructField, StringType, IntegerType

# Define the schema for the Data Frame
schema = StructType([
    StructField("name", StringType(), nullable=False),
    StructField("age", IntegerType(), nullable=False),
    StructField("department", StringType(), nullable=False)
])

步驟 4：將模式應用於 RDD 並建立 DataFrame。

最後，我們需要將定義的模式應用於 RDD，使 PySpark 能夠解釋資料並生成具有所需結構的 DataFrame。這是透過使用 createDataFrame() 方法實現的，該方法將 RDD 和模式作為引數並返回 PySpark DataFrame。透過應用模式，我們將原始資料轉換為結構化的表格格式，可以方便地進行查詢和分析。

# Apply the schema to the RDD and create a Data Frame
df = spark.createDataFrame(rdd, schema)

# Print data frame
df.show()

輸出

如果我們使用 show() 方法顯示 DataFrame 的內容，我們將看到以下輸出

+-------+---+------------+
|   name|age|  department|
+-------+---+------------+
| Prince| 30| Engineering|
|  Mukul| 35|       Sales|
|Durgesh| 28|   Marketing|
|   Doku| 32|     Finance|
+-------+---+------------+

從上面的輸出可以看到，生成的 DataFrame 展示了轉換後的資料，其中列代表“name”、“age”和“department”，以及從 employee_data 字典列表中匯出的各自值。每一行對應於員工的資訊，包括他們的姓名、年齡和部門。

透過成功完成這些步驟，我們已經有效地將字典列表轉換為了 PySpark DataFrame。此轉換現在使我們能夠對 DataFrame 執行各種操作，例如查詢、過濾和聚合資料。

結論

在本教程中，我們探討了將字典列表轉換為 PySpark DataFrame 的過程。透過利用 PySpark DataFrame API 的強大功能，我們能夠將原始資料轉換為結構化的表格格式，可以輕鬆地進行查詢和分析。我們採用了一種循序漸進的方法，從建立 SparkSession 和匯入必要的模組開始，定義字典列表，將其轉換為 PySpark RDD，為 DataFrame 指定模式，將模式應用於 RDD，最後建立 DataFrame。在此過程中，我們提供了程式碼示例和輸出以說明每個步驟。

Prince Yadav

更新於：2023年7月21日

4K+ 次瀏覽

啟動你的職業生涯

透過完成課程獲得認證

開始