- PySpark 教程
- PySpark - 主頁
- PySpark - 簡介
- PySpark - 環境設定
- PySpark - SparkContext
- PySpark - RDD
- PySpark - Broadcast 和 Accumulator
- PySpark - SparkConf
- PySpark - SparkFiles
- PySpark - StorageLevel
- PySpark - MLlib
- PySpark - Serializers
- PySpark 實用資源
- PySpark - 速查指南
- PySpark - 實用資源
- PySpark - 討論
PySpark - 環境設定
在本章中,我們將瞭解 PySpark 的環境設定。
注意 - 這考慮到了您在計算機中安裝了 Java 和 Scala。
讓我們按照以下步驟下載並設定 PySpark。
步驟 1 - 訪問正式的 Apache Spark 下載 頁面並下載其中可用的最新版 Apache Spark。在本教程中,我們使用的是 spark-2.1.0-bin-hadoop2.7。
步驟 2 - 現在,抽取下載的 Spark tar 檔案。預設情況下,它將下載到“下載”目錄中。
# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz
它將建立一個目錄 spark-2.1.0-bin-hadoop2.7。啟動 PySpark 之前,您需要設定以下環境來設定 Spark 路徑和 Py4j 路徑。
export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7 export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH export PATH = $SPARK_HOME/python:$PATH
或者,要在全域性設定以上環境,請將它們放入 .bashrc 檔案中。然後執行以下命令以使環境起作用。
# source .bashrc
現在,我們已經設定了所有環境,讓我們轉到 Spark 目錄,並透過執行以下命令呼叫 PySpark 外殼 -
# ./bin/pyspark
這將會啟動您的 PySpark 外殼。
Python 2.7.12 (default, Nov 19 2016, 06:48:10)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.1.0
/_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<
廣告