Mahout - 機器學習



Apache Mahout 是一個高度可擴充套件的機器學習庫,使開發人員能夠使用最佳化的演算法。Mahout 實現流行的機器學習技術,例如推薦、分類和聚類。因此,在我們繼續之前,最好先簡要介紹一下機器學習。

什麼是機器學習?

機器學習是計算機科學的一個分支,它涉及以這樣一種方式對系統進行程式設計,即它們可以根據經驗自動學習和改進。在這裡,學習意味著識別和理解輸入資料,並根據提供的資料做出明智的決策。

根據所有可能的輸入來滿足所有決策非常困難。為了解決這個問題,開發了演算法。這些演算法根據統計學、機率論、邏輯、組合最佳化、搜尋、強化學習和控制理論的原理,從特定資料和過去的經驗中構建知識。

開發的演算法構成了各種應用程式的基礎,例如

  • 視覺處理
  • 語言處理
  • 預測(例如,股票市場趨勢)
  • 模式識別
  • 遊戲
  • 資料探勘
  • 專家系統
  • 機器人技術

機器學習是一個廣闊的領域,本教程無法涵蓋其所有功能。有多種方法可以實現機器學習技術,但最常用的方法是**監督學習**和**無監督學習**。

監督學習

監督學習處理從可用的訓練資料中學習函式。監督學習演算法分析訓練資料並生成一個推斷函式,該函式可用於對映新示例。監督學習的常見示例包括

  • 將電子郵件分類為垃圾郵件,
  • 根據網頁內容為網頁貼標籤,以及
  • 語音識別。

有許多監督學習演算法,例如神經網路、支援向量機 (SVM) 和樸素貝葉斯分類器。Mahout 實現樸素貝葉斯分類器。

無監督學習

無監督學習在沒有任何預定義資料集進行訓練的情況下,對未標記的資料進行理解。無監督學習是分析可用資料並尋找模式和趨勢的極其強大的工具。它最常用於將類似的輸入聚類到邏輯組中。無監督學習的常見方法包括

  • k-means
  • 自組織對映,以及
  • 層次聚類

推薦

推薦是一種流行的技術,它根據使用者資訊(例如之前的購買、點選和評分)提供接近的推薦。

  • 亞馬遜使用此技術來顯示您可能感興趣的推薦商品列表,並從您的過去操作中提取資訊。亞馬遜背後有推薦引擎來捕捉使用者行為,並根據您之前的操作推薦選定的商品。

  • Facebook 使用推薦技術來識別和推薦“你可能認識的人”列表。

Recommendation

分類

分類,也稱為**分類**,是一種機器學習技術,它使用已知資料來確定如何將新資料分類到一組現有類別中。分類是一種監督學習形式。

  • 雅虎!和 Gmail 等郵件服務提供商使用此技術來確定是否應將新郵件分類為垃圾郵件。分類演算法透過分析使用者標記某些郵件為垃圾郵件的習慣來自我訓練。基於此,分類器決定將來郵件是否應存放在您的收件箱中或垃圾郵件資料夾中。

  • iTunes 應用程式使用分類來準備播放列表。

Classification

聚類

聚類用於根據共同特徵形成相似資料的組或叢集。聚類是一種無監督學習形式。

  • 谷歌和雅虎!等搜尋引擎使用聚類技術對具有相似特徵的資料進行分組。

  • 新聞組使用聚類技術根據相關主題對各種文章進行分組。

聚類引擎完全遍歷輸入資料,並根據資料的特徵,決定它應該歸入哪個叢集。請檢視以下示例。

Clustering

我們的教程庫包含各種主題的主題。當我們在 TutorialsPoint 收到新的教程時,它會由聚類引擎處理,該引擎會根據其內容決定將其歸入何處。

廣告

© . All rights reserved.