無監督機器學習



什麼是無監督機器學習?

無監督學習,也稱為無監督機器學習,是一種機器學習型別,它在沒有人類監督的情況下學習資料中的模式和結構。無監督學習使用機器學習演算法來分析資料並發現未標記資料集中的潛在模式。

有監督機器學習不同,無監督機器學習模型是在未標記的資料集上訓練的。在沒有像有監督學習演算法那樣擁有預先標記的訓練資料,並且我們希望從輸入資料中提取有用模式的情況下,無監督學習演算法非常方便。

我們可以將無監督學習總結為:

  • 一種機器學習方法或型別,
  • 使用機器學習演算法
  • 在沒有人類監督的情況下
  • 發現數據中的隱藏模式或結構。

無監督機器學習中使用了許多方法。一些方法包括關聯、聚類和降維。一些無監督機器學習演算法的示例包括K均值聚類、K近鄰等。

在迴歸中,我們訓練機器預測未來值。在分類中,我們訓練機器將未知物件分類到我們定義的類別之一中。簡而言之,我們一直在訓練機器,以便它可以為我們的資料X預測Y。鑑於一個龐大的資料集並且沒有估計類別,我們很難使用有監督學習來訓練機器。如果機器可以檢視和分析執行到幾GB和TB的大資料並告訴我們此資料包含這麼多不同的類別,那該怎麼辦?

例如,考慮選民資料。透過考慮每個選民的一些輸入(在AI術語中稱為特徵),讓機器預測有這麼多選民會投票給X政黨,而這麼多人會投票給Y,等等。因此,一般來說,我們是在詢問機器,給定一大組資料點X,“你能告訴我關於X的資訊嗎?”。或者它可能是一個類似“我們可以從X中找出五個最佳組?”的問題。或者它甚至可能像“X中最常一起出現的三個特徵是什麼?”。

這正是無監督學習的全部內容。

無監督學習是如何工作的?

在無監督學習中,機器學習演算法(稱為自學習演算法)在未標記的資料集上進行訓練,即輸入資料未分類。根據任務或機器學習問題(如聚類、關聯等)和資料集,選擇合適的演算法進行訓練。

在訓練過程中,演算法根據資料點的相似性、模式和差異學習並推斷自己的規則。演算法在沒有任何標籤(目標值)或預訓練的情況下學習。

演算法使用資料集進行此訓練過程的結果是機器學習模型。由於資料集是未標記的(沒有目標值,沒有人工監督),因此該模型是無監督機器學習模型。

現在,模型已準備好執行無監督學習任務,例如聚類、關聯或降維。

無監督學習模型適用於複雜的任務,例如將大型資料集組織成叢集。

無監督機器學習方法

無監督學習方法或途徑大致分為三類:聚類、關聯和降維。讓我們簡要討論這些方法並列出一些相關的演算法:

1. 聚類

聚類 是一種用於將一組物件或資料點根據其相似性分組到叢集中的技術。此技術的目的是確保同一叢集中的資料點應比其他叢集中的資料點具有更多相似性。

聚類有時稱為無監督分類,因為它產生的結果與分類相同,但沒有預定義的類別。

聚類是一種流行的無監督學習方法。有幾種用於聚類的無監督學習演算法,例如:

  • K均值聚類 - 該演算法用於將資料點分配到K個叢集中的一個,這基於它與叢集中心的距離。在將每個資料點分配到集群后,會重新計算新的質心。這是一個迭代過程,直到質心不再發生變化。這表明該演算法是有效的,並且叢集是穩定的。
  • 均值漂移演算法 - 這是一種聚類技術,透過查詢高資料密度區域來識別叢集。這是一個迭代過程,其中每個資料點的均值都向資料的密度最大區域移動。
  • 高斯混合模型 - 這是一種機率模型,它是多個高斯分佈的組合。這些模型用於確定給定資料屬於哪個確定。

2. 關聯規則挖掘

這是一種基於規則的技術,用於發現大型資料集中引數之間的關聯。它通常用於市場購物籃分析,允許公司做出決策和推薦引擎。用於關聯規則挖掘的主要演算法之一是Apriori演算法。

Apriori演算法

Apriori演算法 是一種用於無監督學習的技術,用於識別經常重複的資料點並在交易資料中發現關聯規則。

3. 降維

顧名思義,降維 用於透過選擇一組主要或代表性特徵來減少每個資料樣本的特徵變數的數量。

這裡出現了一個問題,那就是為什麼我們需要降低維度?其背後的原因是特徵空間複雜度問題,當我們開始分析和提取數百萬個數據樣本的特徵時,就會出現這種問題。此問題通常稱為“維數災難”。無監督學習中用於降維的一些流行演算法是:

  • 主成分分析
  • 缺失值比率
  • 奇異值分解
  • 自動編碼器

無監督學習演算法

演算法是機器學習模型訓練中非常重要的部分。機器學習演算法是一組程式遵循的指令,用於分析資料併產生結果。對於特定任務,會選擇合適的機器學習演算法並在資料上進行訓練。

無監督學習中使用的演算法通常屬於以下三類之一:聚類、關聯或降維。以下是最常用的無監督學習演算法:

無監督學習的優點

無監督學習具有許多優點,使其在各種任務中特別有用 -

  • 無需標記資料 - 無監督學習不需要標記資料集進行訓練,這使其使用起來更容易且更便宜。
  • 發現隱藏模式 - 它有助於識別大型資料中的模式和關係,這可以帶來洞察力和高效的決策。
  • 適用於複雜任務 - 它可有效用於各種複雜任務,如聚類、異常檢測和降維。

無監督學習的缺點

雖然無監督學習有很多優點,但在沒有人工干預的情況下訓練模型時也可能遇到一些挑戰。無監督學習的一些缺點包括

  • 難以評估 - 由於沒有標記資料和預定義的目標,因此難以評估無監督學習演算法的效能。
  • 結果可能不準確 - 無監督學習演算法的結果可能不太準確,尤其是在輸入資料存在噪聲的情況下,並且由於資料未標記,演算法不知道確切的輸出。

無監督學習的應用

無監督學習為企業提供了識別海量資料中模式的途徑。無監督學習的一些現實應用包括

  • 客戶細分 - 在商業和零售分析中,無監督學習用於根據客戶的購買、過去活動或偏好將其分組為不同的細分市場。
  • 異常檢測 - 無監督學習演算法用於異常檢測以識別異常模式,這對於金融交易中的欺詐檢測和網路安全至關重要。
  • 推薦引擎 - 無監督學習演算法有助於分析大型客戶資料以獲得有價值的見解和了解模式。這可以幫助進行目標營銷和個性化。
  • 自然語言處理 - 無監督學習演算法用於各種應用。例如,谷歌過去曾使用它對新聞部分的文章進行分類。

什麼是異常檢測?

這種無監督的機器學習方法用於找出罕見事件或觀測值的發生情況,這些事件或觀測值通常不會發生。透過利用學習到的知識,異常檢測方法能夠區分異常資料點和正常資料點。

一些無監督演算法,如聚類和KNN,可以根據資料及其特徵檢測異常。

監督學習與無監督學習

監督學習演算法使用標記資料進行訓練。但可能存在資料未標記的情況,那麼如何從未標記且雜亂無章的資料中獲取洞察力呢?好吧,為了解決這些型別的情況,使用無監督學習。我們在監督學習與無監督學習章節中對監督學習與無監督學習之間的比較進行了詳細分析。

廣告