機器學習中偏差與方差的區別


演算法無處不在,我們很多人都在使用它們,儘管我們可能甚至沒有意識到其中一個參與了這個過程。我們需要一個演算法來使用計算機解決問題。在將資料集轉換為模型時,機器學習依賴於許多不同的技術。

在使用機器學習時,偏差方差都是必須理解的重要組成部分。在任何機器學習演算法中實現高精度時,深入理解這兩個概念至關重要。

什麼是機器學習中的偏差?

每個機器學習演算法都存在預測誤差,可以將其細分為三個子元件:偏差誤差、方差誤差和不可約誤差。在機器學習過程中,錯誤的假設會導致偏差現象的發生。

偏差可能出現在機器學習模型中。當演算法由於在機器學習過程中做出的某些不準確的假設而產生系統性偏差的結果時,這就是偏差的一個例子。

偏差類似於系統誤差。它們是模型為了簡化學習目標函式的過程而做出的假設。

高偏差表示訓練資料和測試資料的誤差都更大。為了避免欠擬合的問題,通常建議演算法具有最小偏差以最大化精度。

讓我們假設您選擇了一個模型,它甚至無法從資料集中推匯出基本模式;這就是我們所說的欠擬合。當您將演算法應用於問題並發現它不適合時,您就會遇到可能被描述為偏差的情況。

高偏差模型具有以下特徵:

  • 未能收集正確的數趨勢。
  • 可能出現不正確的擬合。
  • 過於泛化和簡化。
  • 高頻錯誤。

什麼是機器學習中的方差?

機器學習模型預測在訓練資料和測試資料之間的準確性差異稱為方差。當模型效能的變化是由資料集的變化引起的時,我們稱之為方差誤差。

方差指的是如果使用不同的訓練資料集,目標函式估計將發生變化的幅度。由於機器學習演算法從訓練資料中推斷目標函式,因此可以合理地預期該方法會表現出一定程度的變異性。

方差依賴於單個訓練集,它是決定使用不同訓練集進行預測的一致性的因素。

  • 方差低表明,當訓練資料集改變時,目標函式的估計值只會發生輕微變化。

  • 方差高表明,當訓練資料集改變時,目標函式的估計值將發生顯著變化。

訓練資料的細節會嚴重影響具有高方差的機器學習演算法的效能。

高方差模型具有以下特徵:

  • 資料集中存在噪聲。
  • 存在過擬合的可能性。
  • 複雜的模型。
  • 努力使所有資料點儘可能接近。

機器學習中偏差與方差的區別

下表重點介紹了機器學習中偏差和方差的主要區別:

比較依據偏差方差
定義當在機器學習模型中使用演算法並且它不適合時,就會出現偏差現象。偏差出現在多種情況下。術語“方差”指的是使用多個訓練資料集可能導致的目標函式估計值的改變程度。
預測值與實際觀察值之間的差異稱為偏差。隨機變數的方差是衡量它與其預測值的偏離程度。
資料模型無法找到其訓練資料集中的模式,併為已見和未見資料產生不準確的結果。模型識別資料集中的大部分模式,甚至可以從噪聲或與其操作無關的資料中學習。

結論

無論您使用什麼模型,您都希望確保它在偏差量和方差量之間取得良好的平衡。

任何監督式機器學習演算法都應努力實現低偏差和低方差作為其主要目標。然而,這種情況由於兩個原因而不可行:首先,偏差和方差相互負相關;其次,機器學習模型同時具有低偏差和低方差的情況極不可能發生。

與偏差相反,方差描述了模型解釋資料變化以及噪聲的情況。如果您嘗試更改演算法使其更適合特定資料集,它最終可能具有低偏差,但方差會增加。

更新於:2022年7月22日

13K+ 瀏覽量

啟動您的職業生涯

透過完成課程獲得認證

開始學習
廣告