
- 敏捷資料科學教程
- 敏捷資料科學 - 首頁
- 敏捷資料科學 - 簡介
- 方法論概念
- 敏捷資料科學 - 流程
- 敏捷工具與安裝
- 敏捷中的資料處理
- SQL 與 NoSQL
- NoSQL 與資料流程式設計
- 收集與顯示記錄
- 資料視覺化
- 資料豐富化
- 使用報表
- 預測的作用
- 使用 PySpark 提取特徵
- 構建迴歸模型
- 部署預測系統
- 敏捷資料科學 - SparkML
- 修復預測問題
- 改進預測效能
- 使用敏捷和資料科學建立更好的場景
- 敏捷的實施
- 敏捷資料科學有用資源
- 敏捷資料科學 - 快速指南
- 敏捷資料科學 - 資源
- 敏捷資料科學 - 討論
敏捷資料科學 - 資料科學流程
本章我們將瞭解資料科學流程以及理解該流程所需的術語。
“資料科學是資料介面、演算法開發和技術相結合,以解決複雜的分析問題”。

資料科學是一個跨學科領域,包含科學方法、流程和系統,其中包括機器學習、數學和統計知識以及傳統研究。它還包括駭客技能與專業知識的結合。資料科學汲取了數學、統計學、資訊科學和計算機科學、資料探勘和預測分析的原理。
構成資料科學團隊的不同角色如下:
客戶
客戶是使用產品的人。他們的興趣決定了專案的成功,他們的反饋在資料科學中非常寶貴。
業務發展
這個資料科學團隊會招募早期客戶,無論是直接招募還是透過建立登陸頁面和促銷活動。業務發展團隊交付產品的價值。
產品經理
產品經理重視創造最佳產品,這在市場上具有價值。
互動設計師
他們專注於圍繞資料模型設計互動,以便使用者找到適當的價值。
資料科學家
資料科學家以新的方式探索和轉換資料,以建立和釋出新功能。這些科學家還結合來自不同來源的資料來創造新的價值。他們在與研究人員、工程師和網路開發人員建立視覺化方面發揮著重要作用。
研究人員
顧名思義,研究人員參與研究活動。他們解決資料科學家無法解決的複雜問題。這些問題涉及對機器學習和統計模組的集中關注和時間。
適應變化
資料科學的所有團隊成員都需要適應新的變化並根據要求開展工作。為了將敏捷方法與資料科學相結合,應該進行一些更改,如下所示:
選擇通才而不是專家。
偏好小型團隊而不是大型團隊。
使用高階工具和平臺。
持續迭代地共享中間工作。
注意
在敏捷資料科學團隊中,一個小型通才團隊使用可擴充套件的高階工具,並透過迭代將資料提煉成越來越高的價值狀態。
考慮以下與資料科學團隊成員工作相關的示例:
設計師交付 CSS。
網路開發人員構建完整的應用程式,瞭解使用者體驗和介面設計。
資料科學家應該同時從事研究和構建網路服務(包括網路應用程式)的工作。
研究人員在程式碼庫中工作,該程式碼庫顯示解釋中間結果的結果。
產品經理試圖識別和理解所有相關領域中的缺陷。
廣告