大資料分析 - 問題定義



在本教程中,我們將開發一個專案。本教程中的每個後續章節都處理迷你專案部分中較大專案的一部分。這被認為是一個應用教程部分,將提供對現實世界問題的瞭解。在這種情況下,我們將從專案的**問題定義**開始。

專案描述

本專案的目標是開發一個機器學習模型,根據使用者的簡歷(CV)文字作為輸入來預測人們的小時工資。

使用上面定義的框架,很容易定義問題。我們可以將X = {x1, x2, …, xn}定義為使用者的簡歷,其中每個特徵可以是以最簡單的方式出現的單詞數量。然後響應是實值,我們試圖預測以美元為單位的個人小時工資。

這兩個考慮足以得出結論,即可以使用監督迴歸演算法解決所提出的問題。

問題定義

**問題定義**可能是大資料分析流程中最複雜和最容易被忽視的階段之一。為了定義資料產品將解決的問題,經驗是必須的。大多數資料科學家 aspirants 在此階段幾乎沒有或沒有經驗。

大多數大資料問題可以歸類如下:

  • 監督分類
  • 監督迴歸
  • 無監督學習
  • 學習排序

讓我們現在更多地瞭解這四個概念。

監督分類

給定一個特徵矩陣X = {x1, x2, ..., xn},我們開發一個模型M來預測定義為y = {c1, c2, ..., cn}的不同類別。例如:給定保險公司客戶的交易資料,可以開發一個模型來預測客戶是否會流失。後者是一個二元分類問題,有兩個類別或目標變數:流失和未流失。

其他問題涉及預測多個類別,我們可能感興趣的是進行數字識別,因此響應向量將定義為:y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9},最先進的模型將是卷積神經網路,特徵矩陣將定義為影像的畫素。

監督迴歸

在這種情況下,問題定義與前面的示例非常相似;區別在於響應。在迴歸問題中,響應y ∈ ℜ,這意味著響應是實值的。例如,我們可以開發一個模型來預測個人給定其簡歷語料庫的小時工資。

無監督學習

管理層經常渴望獲得新的見解。細分模型可以提供這種洞察力,以便營銷部門為不同的細分市場開發產品。開發細分模型的好方法,而不是考慮演算法,而是選擇與所需細分相關的特徵。

例如,在電信公司中,根據客戶的手機使用情況對客戶進行細分非常有趣。這將涉及忽略與細分目標無關的特徵,而只包含相關的特徵。在這種情況下,這將選擇諸如一個月內使用的簡訊數量、呼入和撥出分鐘數等特徵。

學習排序

這個問題可以被認為是一個迴歸問題,但它具有特殊的特性,值得單獨處理。該問題涉及給定文件集合,我們試圖找到給定查詢的最相關的排序。為了開發監督學習演算法,需要標記給定查詢的排序的相關性。

需要注意的是,為了開發監督學習演算法,需要標記訓練資料。這意味著為了訓練一個模型,例如,從影像中識別數字,我們需要手動標記大量示例。有一些網路服務可以加快此過程,並且通常用於此任務,例如亞馬遜Mechanical Turk。事實證明,當提供更多資料時,學習演算法會提高其效能,因此在監督學習中,標記相當數量的示例實際上是強制性的。

廣告
© . All rights reserved.