Pyspark 初學者課程
Pyspark 入門。大資料處理初學者課程
講座 -16
資源 -1
時長 -2 小時
終身訪問

課程描述
Pyspark是Apache Spark和Python合作開發的用於大資料計算的工具。Apache Spark是一個用Scala編寫的開源叢集計算框架,用於大規模資料處理,由加州大學伯克利分校的AMP實驗室開發,而Python是一種高階程式語言。Spark最初是用Scala編寫的,由於行業應用的需要,其框架PySpark後來透過Py4J移植到Python。Py4J是一個內建於PySpark的Java庫,它幫助Python動態地與JVM物件互動;因此,要執行PySpark,除了Python和Apache Spark之外,還必須啟用Java。
PySpark入門步驟
- 連線叢集是Spark的第一步(一群位於遠端位置的節點,其中主節點將資料分配給工作節點,所有工作節點將資料計算結果報告給主節點)。這就像構建Spark Context類的物件/例項以繫結到叢集一樣簡單。
- 您可以使用SparkContext類生成一個SparkSession物件,該物件充當與叢集關係的攔截器。建立多個SparkSessions會導致問題。
- pyspark.sql — 可以從中匯入SparkSession物件的模組。
- SparkSession.builder.getOrCreate() — 如果存在當前SparkSession,則此函式會恢復它;如果不存在,則會建立一個新的。
課程大綱
檢視課程詳細內容分解
簡介
1 個講座
-
PySpark 簡介 09:10 09:10
使用RDD進行程式設計
13 節課
講師 詳情
Corporate Bridge Consultancy Private Limited (公司橋樑諮詢私人有限公司)
課程 證書
使用您的證書來改變職業或在您目前的職業中提升。
我們的學生與
最好的 企業 合作
相關影片課程
檢視更多
聯絡我們
1800-202-0515
© .
All rights reserved.