PySpark - 簡介

在本章中，我們將瞭解什麼是 Apache Spark，以及 PySpark 的開發過程。

Spark - 概述

Apache Spark 是一個極速的即時處理框架。它進行記憶體中計算來即時分析資料。它的出現是因為 Apache Hadoop MapReduce 僅執行批處理，並且缺少即時處理功能。因此，引入了 Apache Spark，因為它可以在即時執行流處理，還可以執行批處理。

除了即時和批處理外，Apache Spark 還支援互動式查詢和迭代演算法。Apache Spark 有自己的叢集管理器，可以在其中託管其應用程式。它利用 Apache Hadoop 進行儲存和處理。它將 HDFS（Hadoop 分散式檔案系統）用於儲存，並且它還可以在 YARN 上執行 Spark 應用程式。

PySpark - 概述

Apache Spark 用 Scala 程式語言編寫。為了用 Python 支援 Spark，Apache Spark 社群釋出了一個工具 PySpark。使用 PySpark，您還可以在 Python 程式語言中使用 RDD。這是由於一個名為 Py4j 的庫，他們能夠實現此功能。

PySpark 提供了 PySpark Shell，它將 Python API 連結到 Spark 核心並初始化 Spark 上下文。今天，大多數資料科學家和分析專家使用 Python，因為其豐富的庫集。將 Python 與 Spark 整合對他們來說是一大福音。

列印頁面