- 大資料分析教程
- 大資料分析 - 首頁
- 大資料分析 - 概述
- 大資料分析 - 特性
- 大資料分析 - 資料生命週期
- 大資料分析 - 架構
- 大資料分析 - 方法論
- 大資料分析 - 核心交付成果
- 大資料採用與規劃考慮
- 大資料分析 - 主要利益相關者
- 大資料分析 - 資料分析師
- 大資料分析 - 資料科學家
- 大資料分析有用資源
- 大資料分析 - 快速指南
- 大資料分析 - 資源
- 大資料分析 - 討論
大資料分析 - 問題定義
在本教程中,我們將開發一個專案。本教程中的每個後續章節都處理迷你專案部分中較大專案的一部分。這被認為是一個應用教程部分,將提供對現實世界問題的瞭解。在這種情況下,我們將從專案的**問題定義**開始。
專案描述
本專案的目標是開發一個機器學習模型,根據使用者的簡歷(CV)文字作為輸入來預測人們的小時工資。
使用上面定義的框架,很容易定義問題。我們可以將X = {x1, x2, …, xn}定義為使用者的簡歷,其中每個特徵可以是以最簡單的方式出現的單詞數量。然後響應是實值,我們試圖預測以美元為單位的個人小時工資。
這兩個考慮足以得出結論,即可以使用監督迴歸演算法解決所提出的問題。
問題定義
**問題定義**可能是大資料分析流程中最複雜和最容易被忽視的階段之一。為了定義資料產品將解決的問題,經驗是必須的。大多數資料科學家 aspirants 在此階段幾乎沒有或沒有經驗。
大多數大資料問題可以歸類如下:
- 監督分類
- 監督迴歸
- 無監督學習
- 學習排序
讓我們現在更多地瞭解這四個概念。
監督分類
給定一個特徵矩陣X = {x1, x2, ..., xn},我們開發一個模型M來預測定義為y = {c1, c2, ..., cn}的不同類別。例如:給定保險公司客戶的交易資料,可以開發一個模型來預測客戶是否會流失。後者是一個二元分類問題,有兩個類別或目標變數:流失和未流失。
其他問題涉及預測多個類別,我們可能感興趣的是進行數字識別,因此響應向量將定義為:y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9},最先進的模型將是卷積神經網路,特徵矩陣將定義為影像的畫素。
監督迴歸
在這種情況下,問題定義與前面的示例非常相似;區別在於響應。在迴歸問題中,響應y ∈ ℜ,這意味著響應是實值的。例如,我們可以開發一個模型來預測個人給定其簡歷語料庫的小時工資。
無監督學習
管理層經常渴望獲得新的見解。細分模型可以提供這種洞察力,以便營銷部門為不同的細分市場開發產品。開發細分模型的好方法,而不是考慮演算法,而是選擇與所需細分相關的特徵。
例如,在電信公司中,根據客戶的手機使用情況對客戶進行細分非常有趣。這將涉及忽略與細分目標無關的特徵,而只包含相關的特徵。在這種情況下,這將選擇諸如一個月內使用的簡訊數量、呼入和撥出分鐘數等特徵。
學習排序
這個問題可以被認為是一個迴歸問題,但它具有特殊的特性,值得單獨處理。該問題涉及給定文件集合,我們試圖找到給定查詢的最相關的排序。為了開發監督學習演算法,需要標記給定查詢的排序的相關性。
需要注意的是,為了開發監督學習演算法,需要標記訓練資料。這意味著為了訓練一個模型,例如,從影像中識別數字,我們需要手動標記大量示例。有一些網路服務可以加快此過程,並且通常用於此任務,例如亞馬遜Mechanical Turk。事實證明,當提供更多資料時,學習演算法會提高其效能,因此在監督學習中,標記相當數量的示例實際上是強制性的。