PySpark - 簡介



在本章中,我們將瞭解什麼是 Apache Spark,以及 PySpark 的開發過程。

Spark - 概述

Apache Spark 是一個極速的即時處理框架。它進行記憶體中計算來即時分析資料。它的出現是因為 Apache Hadoop MapReduce 僅執行批處理,並且缺少即時處理功能。因此,引入了 Apache Spark,因為它可以在即時執行流處理,還可以執行批處理。

除了即時和批處理外,Apache Spark 還支援互動式查詢和迭代演算法。Apache Spark 有自己的叢集管理器,可以在其中託管其應用程式。它利用 Apache Hadoop 進行儲存和處理。它將 HDFS(Hadoop 分散式檔案系統)用於儲存,並且它還可以在 YARN 上執行 Spark 應用程式。

PySpark - 概述

Apache Spark 用 Scala 程式語言編寫。為了用 Python 支援 Spark,Apache Spark 社群釋出了一個工具 PySpark。使用 PySpark,您還可以在 Python 程式語言中使用 RDD。這是由於一個名為 Py4j 的庫,他們能夠實現此功能。

PySpark 提供了 PySpark Shell,它將 Python API 連結到 Spark 核心並初始化 Spark 上下文。今天,大多數資料科學家和分析專家使用 Python,因為其豐富的庫集。將 Python 與 Spark 整合對他們來說是一大福音。

廣告