資料分析中的機器學習

機器學習是計算機科學的一個子領域，涉及模式識別、計算機視覺、語音識別、文字分析等任務，並且與統計學和數學最佳化有著密切的聯絡。應用包括搜尋引擎的開發、垃圾郵件過濾、光學字元識別（OCR）等。資料探勘、模式識別和統計學習領域的界限並不清晰，基本上都指的是類似的問題。

機器學習可以分為兩種型別的任務：

監督學習

監督學習指的是一種問題型別，其中輸入資料定義為矩陣X，我們感興趣的是預測響應y。其中X = {x₁, x₂, …, x_n}有n個預測變數，並且有兩個值y = {c₁, c₂}。

一個示例應用是預測網頁使用者點選廣告的機率，使用人口統計特徵作為預測變數。這通常被稱為預測點選率（CTR）。然後y = {點選，不點選}，預測變數可以是使用的IP地址、使用者進入網站的日期、使用者的城市、國家等其他可能可用的特徵。

無監督學習處理的是在沒有要學習的類別的情況下查詢彼此相似的組的問題。有多種方法可以解決將預測變數對映到查詢每個組中共享相似例項並彼此不同的組的任務。

無監督學習的一個示例應用是客戶細分。例如，在電信行業，一個常見的任務是根據使用者對電話的使用情況對使用者進行細分。這將允許營銷部門針對每個群體推出不同的產品。

列印頁面