使用 PySpark 提取特徵



在本章中,我們將瞭解敏捷資料科學中使用 PySpark 提取特徵的應用。

Spark 概述

Apache Spark 可以定義為一個快速即時處理框架。它進行計算以即時分析資料。Apache Spark 被引入為即時流處理系統,還能夠處理批處理。Apache Spark 支援互動式查詢和迭代演算法。

Spark 使用“Scala 程式語言”編寫。

PySpark 可以被視為 Python 與 Spark 的組合。PySpark 提供了 PySpark shell,它將 Python API 連線到 Spark 核心並初始化 Spark 上下文。大多數資料科學家都使用 PySpark 來跟蹤特徵,如上一章所述。

在此示例中,我們將重點介紹基於轉換來構建名為“counts”的資料集並將其儲存到特定檔案中的過程。

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

使用 PySpark,使用者可以使用 python 程式語言處理 RDD。這方面的工作得到了內建庫的幫助,該庫涵蓋了資料驅動型文件和元件的基礎知識。

廣告