PySpark - 環境設定



在本章中,我們將瞭解 PySpark 的環境設定。

注意 - 這考慮到了您在計算機中安裝了 Java 和 Scala。

讓我們按照以下步驟下載並設定 PySpark。

步驟 1 - 訪問正式的 Apache Spark 下載 頁面並下載其中可用的最新版 Apache Spark。在本教程中,我們使用的是 spark-2.1.0-bin-hadoop2.7

步驟 2 - 現在,抽取下載的 Spark tar 檔案。預設情況下,它將下載到“下載”目錄中。

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

它將建立一個目錄 spark-2.1.0-bin-hadoop2.7。啟動 PySpark 之前,您需要設定以下環境來設定 Spark 路徑和 Py4j 路徑

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

或者,要在全域性設定以上環境,請將它們放入 .bashrc 檔案中。然後執行以下命令以使環境起作用。

# source .bashrc

現在,我們已經設定了所有環境,讓我們轉到 Spark 目錄,並透過執行以下命令呼叫 PySpark 外殼 -

# ./bin/pyspark

這將會啟動您的 PySpark 外殼。

Python 2.7.12 (default, Nov 19 2016, 06:48:10) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<
廣告
© . All rights reserved.