Tutorialspoint

黑色星期五,史無前例最低價! 使用優惠碼:BFS8

Pyspark 初學者課程

Pyspark 初學者課程

Pyspark 入門。大資料處理初學者課程

更新於圖示 更新於 2024 年 11 月

語言圖示 語言 - 英語

個人圖示 Corporate Bridge Consultancy Private Limited

英語 [CC]

類別圖示 開發,資料科學,

講座 -16

資源 -1

時長 -2 小時

終身訪問

4.6

price-loader

終身訪問

30 天 退款保證

培訓5人或以上?

讓您的團隊隨時隨地訪問10000多門Tutorials Point頂級課程。

課程描述

Pyspark是Apache Spark和Python合作開發的用於大資料計算的工具。Apache Spark是一個用Scala編寫的開源叢集計算框架,用於大規模資料處理,由加州大學伯克利分校的AMP實驗室開發,而Python是一種高階程式語言。Spark最初是用Scala編寫的,由於行業應用的需要,其框架PySpark後來透過Py4J移植到Python。Py4J是一個內建於PySpark的Java庫,它幫助Python動態地與JVM物件互動;因此,要執行PySpark,除了Python和Apache Spark之外,還必須啟用Java。

PySpark入門步驟

  • 連線叢集是Spark的第一步(一群位於遠端位置的節點,其中主節點將資料分配給工作節點,所有工作節點將資料計算結果報告給主節點)。這就像構建Spark Context類的物件/例項以繫結到叢集一樣簡單。
  • 您可以使用SparkContext類生成一個SparkSession物件,該物件充當與叢集關係的攔截器。建立多個SparkSessions會導致問題。
  •  pyspark.sql — 可以從中匯入SparkSession物件的模組。
  • SparkSession.builder.getOrCreate() — 如果存在當前SparkSession,則此函式會恢復它;如果不存在,則會建立一個新的。
Pyspark Beginner Course

課程大綱

檢視課程詳細內容分解

簡介
1 個講座
  • 播放圖示 PySpark 簡介 09:10 09:10
Tutorialspoint
使用RDD進行程式設計
13 節課
Tutorialspoint

講師 詳情

Corporate Bridge Consultancy Private Limited

Corporate Bridge Consultancy Private Limited (公司橋樑諮詢私人有限公司)

課程 證書

使用您的證書來改變職業或在您目前的職業中提升。

sample Tutorialspoint certificate

我們的學生與
最好的 企業 合作

相關影片課程

檢視更多

年度會員

成為Tutorials Point的尊貴會員,享受我們海量頂級影片課程的無限訪問許可權。

立即訂閱
Annual Membership

線上認證

掌握知名技術,成為受人尊敬的認證專業人士。

立即探索
Online Certifications

聯絡我們

1800-202-0515

© . All rights reserved.