PySpark - SparkConf



若要在本地/叢集上執行 Spark 應用程式,需要設定一些配置和引數,這就是 SparkConf 發揮作用的地方。它提供配置以執行 Spark 應用程式。以下程式碼塊包含了 PySpark 的 SparkConf 類的詳細資訊。

class pyspark.SparkConf (
   loadDefaults = True, 
   _jvm = None, 
   _jconf = None
)

最初,我們將使用 SparkConf() 建立一個 SparkConf 物件,這也會從 spark.* Java 系統屬性中載入值。現在,可以使用 SparkConf 物件設定不同的引數,它們的優先順序高於系統屬性。

在 SparkConf 類中,有支援連結的 setter 方法。例如,可以編寫 conf.setAppName(“PySpark App”).setMaster(“local”)。一旦將一個 SparkConf 物件傳遞給 Apache Spark,使用者就無法修改它。

以下是 SparkConf 最常用的部分屬性 −

  • set(key, value) − 設定配置屬性。

  • setMaster(value) − 設定主 URL。

  • setAppName(value) − 設定應用程式名稱。

  • get(key, defaultValue=None) − 獲取鍵的配置值。

  • setSparkHome(value) − 設定工作節點上的 Spark 安裝路徑。

我們來考慮在 PySpark 程式中使用 SparkConf 的以下示例。在此示例中,我們將 spark 應用程式名稱設定為 PySpark App,並將 spark 應用程式的主 URL 設定為 → spark://master:7077

以下程式碼塊包括了這些行,當將其新增到 Python 檔案中時,會為執行 PySpark 應用程式設定基本配置。

---------------------------------------------------------------------------------------
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("PySpark App").setMaster("spark://master:7077")
sc = SparkContext(conf=conf)
---------------------------------------------------------------------------------------
廣告
© . All rights reserved.