大資料分析 - 問題定義

在本教程中，我們將開發一個專案。本教程中的每個後續章節都處理迷你專案部分中較大專案的一部分。這被認為是一個應用教程部分，將提供對現實世界問題的瞭解。在這種情況下，我們將從專案的**問題定義**開始。

專案描述

本專案的目標是開發一個機器學習模型，根據使用者的簡歷（CV）文字作為輸入來預測人們的小時工資。

使用上面定義的框架，很容易定義問題。我們可以將X = {x₁, x₂, …, x_n}定義為使用者的簡歷，其中每個特徵可以是以最簡單的方式出現的單詞數量。然後響應是實值，我們試圖預測以美元為單位的個人小時工資。

這兩個考慮足以得出結論，即可以使用監督迴歸演算法解決所提出的問題。

問題定義

**問題定義**可能是大資料分析流程中最複雜和最容易被忽視的階段之一。為了定義資料產品將解決的問題，經驗是必須的。大多數資料科學家 aspirants 在此階段幾乎沒有或沒有經驗。

大多數大資料問題可以歸類如下：

監督分類
監督迴歸
無監督學習
學習排序

讓我們現在更多地瞭解這四個概念。

監督分類

給定一個特徵矩陣X = {x₁, x₂, ..., x_n}，我們開發一個模型M來預測定義為y = {c₁, c₂, ..., c_n}的不同類別。例如：給定保險公司客戶的交易資料，可以開發一個模型來預測客戶是否會流失。後者是一個二元分類問題，有兩個類別或目標變數：流失和未流失。

其他問題涉及預測多個類別，我們可能感興趣的是進行數字識別，因此響應向量將定義為：y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}，最先進的模型將是卷積神經網路，特徵矩陣將定義為影像的畫素。

監督迴歸

在這種情況下，問題定義與前面的示例非常相似；區別在於響應。在迴歸問題中，響應y ∈ ℜ，這意味著響應是實值的。例如，我們可以開發一個模型來預測個人給定其簡歷語料庫的小時工資。

無監督學習

管理層經常渴望獲得新的見解。細分模型可以提供這種洞察力，以便營銷部門為不同的細分市場開發產品。開發細分模型的好方法，而不是考慮演算法，而是選擇與所需細分相關的特徵。

例如，在電信公司中，根據客戶的手機使用情況對客戶進行細分非常有趣。這將涉及忽略與細分目標無關的特徵，而只包含相關的特徵。在這種情況下，這將選擇諸如一個月內使用的簡訊數量、呼入和撥出分鐘數等特徵。

學習排序

這個問題可以被認為是一個迴歸問題，但它具有特殊的特性，值得單獨處理。該問題涉及給定文件集合，我們試圖找到給定查詢的最相關的排序。為了開發監督學習演算法，需要標記給定查詢的排序的相關性。

需要注意的是，為了開發監督學習演算法，需要標記訓練資料。這意味著為了訓練一個模型，例如，從影像中識別數字，我們需要手動標記大量示例。有一些網路服務可以加快此過程，並且通常用於此任務，例如亞馬遜Mechanical Turk。事實證明，當提供更多資料時，學習演算法會提高其效能，因此在監督學習中，標記相當數量的示例實際上是強制性的。

列印頁面