監督學習與無監督學習



監督學習和無監督學習是機器學習中兩種流行的方法。區分監督學習和無監督學習最簡單的方法是訓練資料集的型別和模型的訓練方式。但是,還有其他區別,本章將進一步討論。

什麼是監督學習?

監督學習是一種機器學習方法,它使用標記資料集來訓練模型,使其成為分類資料或預測輸出的理想選擇。監督學習分為兩種型別:

1. 分類

分類使用演算法來預測類別值,例如確定電子郵件是否為垃圾郵件,或者它是真還是假。該演算法學習將每個輸入對映到其對應的輸出標籤。一些常見的演算法包括 K 近鄰、隨機森林和決策樹。

2. 迴歸

迴歸是一種統計方法,用於分析資料點之間的關係。它可用於根據位置和大小等特徵預測房價,或估計未來的銷售額。一些常見的演算法包括線性迴歸、多項式迴歸和邏輯迴歸。

什麼是無監督學習?

無監督學習是一種機器學習方法,用於在原始和未標記的資料上訓練模型。這種方法通常用於在沒有人工監督的情況下識別資料中的模式。無監督學習模型用於以下任務:

1. 聚類

此任務使用無監督學習模型根據其相似性將資料點分組到叢集中。常用的演算法是K 均值聚類

2. 關聯

這是另一種型別的無監督學習,它使用預定義規則將資料點分組到叢集中。它通常用於市場籃子分析,此任務背後的主要演算法是 **Apriori 演算法**。

3. 降維

這種無監督學習方法用於透過去除不必要的特徵來減小資料集的大小,而不會影響資料的原始性。

監督學習和無監督學習的區別

下表顯示了監督學習和無監督機器學習之間的一些關鍵區別:

依據 監督學習 無監督學習
定義 監督學習演算法訓練資料,其中每個輸入都有對應的輸出。 無監督學習演算法查詢沒有預定義標籤的資料中的模式。
目標 監督學習的目標是根據輸入特徵進行預測或分類。 無監督學習的目標是發現隱藏的模式、結構和關係。
輸入資料 標記的:具有相應輸出標籤的輸入資料。 未標記的:輸入資料是原始的和未標記的。
人工監督 監督學習演算法需要人工監督來訓練模型。 無監督學習演算法不需要任何監督來訓練模型。
任務 迴歸、分類 聚類、關聯和降維
複雜度 監督機器學習方法在計算上比較簡單。 無監督機器學習方法在計算上比較複雜。
演算法 線性迴歸、K 近鄰、決策樹、樸素貝葉斯、SVM K 均值聚類、DBSCAN、自編碼器
準確性 監督機器學習方法非常準確。 無監督機器學習方法的準確性較低。
應用 影像分類、情感分析、推薦系統 客戶細分、異常檢測、推薦引擎、自然語言處理

監督學習或無監督學習 - 選擇哪個?

選擇正確的方法至關重要,並且還會決定結果的效率。為了決定哪種學習方法最好,應考慮以下事項:

  • 資料集 - 評估資料,無論是標記的還是未標記的。你還需要評估是否有時間、資源和專業知識來支援標記。
  • 目標 - 定義你試圖解決的問題和你試圖選擇的解決方案也很重要。它可能是分類、發現數據中的新模式或見解,或建立預測模型。
  • 演算法 - 透過確保演算法與所需維度(例如屬性和特徵數量)匹配來審查演算法。此外,評估演算法是否可以支援資料的數量。

半監督學習

如果你在選擇監督學習和無監督學習之間猶豫不決,半監督學習是最安全的方法。這種學習方法結合了監督學習和無監督學習,其中使用的資料集的一小部分被標記,大部分未被標記。當你有大量資料使得難以識別相關特徵時,這是理想的選擇。

廣告