什麼是偏差-方差分解？

資料探勘資料庫資料結構

可以透過一種稱為偏差-方差分解的理論工具來檢查合併多個假設的效果。假設可以擁有無限數量的相似大小的獨立訓練集，並使用它們來建立無限數量的分類器。

所有分類器都處理測試例項，並且透過多數投票來決定單個答案。在這種情況下，由於沒有學習設計是完美的，因此會出現錯誤。錯誤率將基於機器學習方法與當前問題的匹配程度，並且記錄中也存在噪聲的影響，這可能無法被學習。

假設預期錯誤率是透過對無限數量的獨立選擇的測試示例上組合分類器的錯誤進行平均計算得出的。特定學習演算法的錯誤率稱為其針對學習問題的偏差，並計算學習方法與問題的匹配程度。

它計算學習演算法的“永續性”錯誤，即使考慮無限數量的訓練組，也無法消除這種錯誤。在實際情況下，它無法精確計算；只能近似計算。

學習模型中的第二個錯誤來源來自使用的特定訓練集，該訓練集必然是有限的，因此不能完全代表例項的真實總體。

該誤差元素在所有可能的給定大小的訓練組和所有可能的測試集上的期望值稱為該問題學習方法的方差。分類器的完整預期錯誤是由偏差和方差的總和構成——這就是偏差-方差分解。

在依賴於平方誤差的數學預測的背景下學習了偏差-方差分解，其中存在一種廣泛接受的實現方法。但是，對於分類來說，情況並不明確，並且已經提出了各種競爭性分解方法。

Bagging嘗試透過使用給定的訓練集模擬前面定義的階段來消除學習方法的不穩定性。不是每次都取樣新的獨立訓練資料集，而是透過刪除一些例項並複製其他例項來修改初始訓練資料。從初始資料集中隨機抽取（有放回）例項以建立一個相同大小的新資料集。此取樣過程不可避免地會複製一些例項並刪除其他例項。

透過重取樣建立的資料集彼此不同，但它們不是獨立的，因為它們都是基於一個數據集建立的。然而，事實證明，Bagging 建立了一個組合模型，該模型的效能明顯優於從初始訓練資料構建的單個模型，並且絕不會本質上更差。

基尼係數

更新於：2022年2月11日

260 次瀏覽

開啟你的職業生涯

完成課程獲得認證

廣告

© . All rights reserved.