半監督學習



半監督學習是一種既不是完全監督也不是完全無監督的機器學習型別。半監督學習演算法基本上介於監督學習和無監督學習方法之間。

在半監督學習中,機器學習演算法在包含標記資料和未標記資料的的資料集上進行訓練。當我們有大量可用的未標記資料時,通常會使用半監督學習。在任何監督學習演算法中,可用資料都必須手動標記,這可能是一個相當昂貴的過程。相比之下,在無監督學習中使用的未標記資料應用有限。因此,開發了半監督學習演算法,它可以在兩者之間取得完美的平衡。

什麼是半監督學習?

半監督學習是一種機器學習方法或技術,它結合了監督學習無監督學習。在半監督學習中,機器學習演算法在少量標記資料和大量未標記資料上進行訓練。

半監督學習的目標是開發一種演算法,將整個資料劃分成不同的叢集,並且彼此靠近的資料點很可能共享相同的輸出標籤,然後將叢集分類到預定義的類別中。

我們可以將半監督學習總結為:

  • 一種機器學習方法或技術,
  • 結合了監督學習和無監督學習,
  • 透過使用標記資料和未標記資料來訓練ML模型,
  • 以執行分類和迴歸相關的任務。

半監督學習與監督學習

監督學習和半監督學習之間的主要區別在於用於訓練模型的資料集。在監督學習中,模型在由輸入和與其配對的預定義標籤組成的資料集上進行訓練,即提供特徵及其對應的目標標籤。這允許更準確的預測或分類。而半監督學習的資料集由少量標記資料和大量未標記資料組成。模型最初在標記資料上進行訓練,然後使用這些見解來訓練未標記資料以發現額外的模式。

半監督學習與無監督學習

無監督學習僅在未標記的資料集上訓練模型,旨在識別資料集中具有共同特徵的組。相比之下,半監督學習使用標記資料(少量)和未標記資料(大量)的混合。在無監督學習中,資料集中的資料點根據共同特徵分組到叢集中,而半監督學習效率更高,因為每個叢集都被分配了一個預定義的標籤,因為它在標記資料和未標記資料上進行訓練。

何時選擇半監督學習?

在難以且昂貴地獲得足夠數量的標記資料,但收集未標記資料更容易的情況下。在這種情況下,完全監督或無監督學習方法都不能提供準確的結果。這就是可以實現半監督學習方法的地方。

半監督學習是如何工作的?

半監督學習通常使用小的監督學習元件,即少量預標記的註釋資料和大型無監督學習元件,即大量未標記資料用於訓練。

在機器學習中,我們可以遵循以下任何方法來實現半監督學習方法:

  • 第一種簡單的方法是基於少量標記和註釋的資料構建監督模型,然後透過將其應用於大量未標記資料來構建無監督模型以獲得更多標記樣本。現在,在它們上訓練模型並重復該過程。
  • 第二種方法需要一些額外的努力。在這種方法中,我們首先可以使用無監督方法對類似的資料樣本進行聚類,註釋這些組,然後使用此資訊的組合來訓練模型。

在半監督學習中,使用的未標記資料應該與模型訓練執行的任務相關。從數學角度來看,輸入資料的分佈p(x)必須包含關於後驗分佈p(y|x)的資訊,該資訊表示給定資料點(x)屬於某個類別(y)的機率。

半監督學習的工作原理存在某些假設,例如:

  • 平滑性假設
  • 聚類假設
  • 低密度分離
  • 流形假設

讓我們簡要了解上述假設。

平滑性假設

此假設指出,高密度區域(屬於同一叢集)中的兩個資料點x1和x2接近,因此對應的輸出標籤y1和y2也應該接近。另一方面,如果資料點位於低密度區域,則它們的輸出不必接近。

聚類假設

聚類假設指出,當資料點位於同一叢集中時,它們很可能屬於同一類別。未標記資料應該有助於使用聚類演算法更準確地找到每個叢集的邊界。此外,標記資料點應該用於為每個叢集分配一個類別。

低密度分離

低密度分離假設指出,決策邊界應該位於低密度區域。例如,考慮數字識別,人們希望將手寫數字“0”與數字“1”區分開來。從決策邊界精確獲取的樣本點將位於0和1之間,很可能是一個看起來像非常細長的零的數字。但有人寫下這個“奇怪”數字的機率非常小。

流形假設

此假設構成了幾種半監督學習方法的基礎,它指出在高維輸入空間中,存在幾個低維流形,所有資料點都存在於其中,並且具有相同標籤的資料點位於同一流形上。

半監督學習技術

半監督學習使用多種技術來充分利用標記資料和未標記資料,以獲得準確的結果。一些流行的技術包括:

自訓練

自訓練是一個過程,其中任何監督方法(如分類和迴歸)都可以修改為以半監督方式工作,從標記資料和未標記資料中獲取見解。

協同訓練

這種方法是自訓練方法的改進版本,其思想是利用待分類資料的不同“檢視”。這理想地用於網頁內容分類,其中網頁可以用頁面上的文字表示,也可以用引用頁面的超連結表示。與典型過程不同,協同訓練方法基於資料的兩個檢視訓練兩個單獨的分類器,以提高學習效能。

基於圖的標籤傳播

執行半監督學習最有效的方法是將資料建模為圖,其中節點表示資料點,邊表示它們之間的相似性,然後應用標籤傳播演算法。在這種方法中,標記資料點透過圖傳播其標籤,影響相鄰節點。標籤被迭代更新,允許模型為未標記節點分配標籤。

半監督學習的挑戰

半監督學習只需要少量標記資料以及大量未標記資料,從而降低了手動標記的成本和需求。相比之下,還有一些挑戰需要解決,例如:

  • 資料質量 - 半監督學習的效率取決於未標記資料的質量。如果未標記資料嘈雜或不相關,則可能導致不正確的預測和效能下降。
  • 資料差異 − 半監督學習模型更容易受到標記資料和未標記資料之間分佈差異的影響。例如,如果模型訓練的標記資料集包含清晰的高質量影像,而未標記資料包含從監控攝像頭捕獲的影像,則難以從標記影像泛化到未標記影像,從而影響結果。

半監督學習的應用

半監督機器學習應用於文字分類、影像分類、語音分析、異常檢測等領域,其總體目標是將實體分類到預定義的類別中。半監督演算法假設資料可以劃分為離散的叢集,並且彼此更接近的資料點更有可能共享相同的輸出標籤。

一些半監督學習的流行應用包括:

  • 語音識別 − 標記音訊資料是一項耗時的任務,半監督技術透過結合未標記音訊資料和有限的轉錄語音來改進語音模型。這提高了語音識別準確性。
  • 網頁內容分類 − 對於數十億個網站,手動標記內容是不切實際的。半監督學習有助於高效地對網頁內容進行分類,從而改進像 Google 這樣的搜尋引擎的排名,並向用戶查詢提供相關內容。
  • 文字文件分類 − 半監督學習用於透過訓練少量標記文件和大量未標記文字語料庫來對文字進行分類。模型首先從標記資料中學習以獲得見解,然後將其用於對文字進行分類。這種學習方法有助於提高分類準確性,而無需大量的標記資料集。
廣告
© . All rights reserved.