- 敏捷資料科學教程
- 敏捷資料科學 - 首頁
- 敏捷資料科學 - 簡介
- 方法論概念
- 敏捷資料科學 - 流程
- 敏捷工具與安裝
- 敏捷中的資料處理
- SQL 與 NoSQL
- NoSQL 與資料流程式設計
- 收集與顯示記錄
- 資料視覺化
- 資料增強
- 使用報表
- 預測的作用
- 使用 PySpark 提取特徵
- 構建迴歸模型
- 部署預測系統
- 敏捷資料科學 - SparkML
- 修復預測問題
- 改進預測效能
- 用敏捷和資料科學創造更好的場景
- 敏捷的實施
- 敏捷資料科學有用資源
- 敏捷資料科學 - 快速指南
- 敏捷資料科學 - 資源
- 敏捷資料科學 - 討論
敏捷資料科學 - SparkML
機器學習庫也稱為“SparkML”或“MLLib”,包含常見的學習演算法,包括分類、迴歸、聚類和協同過濾。
為什麼學習 SparkML 用於敏捷?
Spark 正在成為構建機器學習演算法和應用程式的事實上的平臺。開發人員在 Spark 上工作以在 Spark 框架中以可擴充套件和簡潔的方式實現機器演算法。我們將學習機器學習的概念、其實用程式和演算法以及此框架。敏捷總是選擇一個能夠提供快速簡短結果的框架。
ML 演算法
ML 演算法包括常見的學習演算法,例如分類、迴歸、聚類和協同過濾。
特徵
它包括特徵提取、轉換、降維和選擇。
管道
管道提供用於構建、評估和調整機器學習管道的工具。
流行演算法
以下是幾個流行的演算法:
基本統計
迴歸
分類
推薦系統
聚類
降維
特徵提取
最佳化
推薦系統
推薦系統是一種資訊過濾系統的子類,它試圖預測使用者對給定專案的“評分”和“偏好”。
推薦系統包含各種過濾系統,其使用方法如下:
協同過濾
它包括根據過去的行為以及其他使用者做出的類似決策構建模型。此特定過濾模型用於預測使用者感興趣的專案。
基於內容的過濾
它包括過濾專案的離散特徵,以便推薦並新增具有相似屬性的新專案。
在我們接下來的章節中,我們將重點關注使用推薦系統來解決特定問題並從敏捷方法論的角度改進預測效能。
廣告