
- 敏捷資料科學教程
- 敏捷資料科學 - 主頁
- 敏捷資料科學 - 簡介
- 方法論概念
- 敏捷資料科學 - 流程
- 敏捷工具和安裝
- 敏捷中的資料處理
- SQL 與 NoSQL
- NoSQL 和資料流程式設計
- 收集和顯示記錄
- 資料視覺化
- 資料豐富
- 處理報告
- 預測的作用
- 使用 PySpark 提取特徵
- 構建迴歸模型
- 部署預測系統
- 敏捷資料科學 - SparkML
- 修復預測問題
- 提高預測效能
- 透過敏捷和資料科學建立更好的情境
- 敏捷實施
- 敏捷資料科學實用資源
- 敏捷資料科學 - 快速指南
- 敏捷資料科學 - 資源
- 敏捷資料科學 - 討論
使用 PySpark 提取特徵
在本章中,我們將瞭解敏捷資料科學中使用 PySpark 提取特徵的應用。
Spark 概述
Apache Spark 可以定義為一個快速即時處理框架。它進行計算以即時分析資料。Apache Spark 被引入為即時流處理系統,還能夠處理批處理。Apache Spark 支援互動式查詢和迭代演算法。
Spark 使用“Scala 程式語言”編寫。
PySpark 可以被視為 Python 與 Spark 的組合。PySpark 提供了 PySpark shell,它將 Python API 連線到 Spark 核心並初始化 Spark 上下文。大多數資料科學家都使用 PySpark 來跟蹤特徵,如上一章所述。
在此示例中,我們將重點介紹基於轉換來構建名為“counts”的資料集並將其儲存到特定檔案中的過程。
text_file = sc.textFile("hdfs://...") counts = text_file.flatMap(lambda line: line.split(" ")) \ .map(lambda word: (word, 1)) \ .reduceByKey(lambda a, b: a + b) counts.saveAsTextFile("hdfs://...")
使用 PySpark,使用者可以使用 python 程式語言處理 RDD。這方面的工作得到了內建庫的幫助,該庫涵蓋了資料驅動型文件和元件的基礎知識。
廣告