
- XGBoost 教程
- XGBoost - 首頁
- XGBoost - 概述
- XGBoost - 架構
- XGBoost - 安裝
- XGBoost - 超引數
- XGBoost - 使用超引數調優
- XGBoost - 使用 DMatrix
- XGBoost - 分類
- XGBoost - 迴歸
- XGBoost - 正則化
- XGBoost - 學習排序
- XGBoost - 過擬合控制
- XGBoost - 分位數迴歸
- XGBoost - 自舉方法
- XGBoost - Python 實現
- XGBoost 與其他 Boosting 演算法的比較
- ZeroMQ 有用資源
- XGBoost - 有用資源
- XGBoost - 討論
XGBoost - 過擬合控制
XGBoost 能夠處理大型資料集並構建高度準確的模型,這使其非常強大。與任何其他機器學習模型一樣,XGBoost 也容易出現過擬合。
由於過擬合模型從訓練集中收集了過多的資訊,其中可能包含噪聲和不重要的模式,因此它在新的、未見過的資料上可能表現不佳。在本章中,我們將瞭解 XGBoost 中過擬合的管理。
什麼是過擬合?
在我們討論 XGBoost 和其他梯度提升模型中過擬合是如何發生之前,讓我們首先解釋什麼是過擬合。過擬合是指機器學習模型過分關注訓練資料特有的細節。模型只關注訓練資料中的特殊模式,而不是學習適用於其他資料的通用模式。這使得它在嘗試對新資料進行預測時效用降低。
為什麼過擬合是一個問題?
過擬合是一個問題,因為它限制了模型在新資料上良好執行的能力。如果模型過於關注訓練集特有的模式,它將無法找到適用於其他資料的模式。這意味著當模型用於新資料或不同資料時,將無法給出良好的結果。
這是一個問題,因為大多數機器學習模型都是專門設計用於識別可應用於廣泛人群的廣泛模式。當應用於未觀察到的資料時,過度擬合訓練資料集的模型將無法生成準確的預測。
如何使用 XGBoost 檢測過擬合
好訊息是,機器學習模型的過擬合很容易識別。您只需確定您的機器學習模型是否過擬合,即可對在訓練期間未遇到的資料集進行預測。
如果您的模型在對未知資料集進行預測方面表現良好,那麼它可能沒有過度擬合訓練集。如果它對未知資料進行的預測遠差於對訓練資料進行的預測,那麼您的模型很可能過度擬合了訓練資料。
XGBoost 是否存在過擬合問題?
在大多數情況下,XGBoost 模型會過度擬合訓練資料集。這在開發具有多個深層樹的複雜模型時尤其常見,或者在有限的訓練資料集上訓練 XGBoost 模型時尤其常見。
與隨機森林模型等其他基於樹的模型相比,XGBoost 模型更容易過度擬合訓練資料集。一般來說,隨機森林模型對訓練期間使用的超引數的選擇不太敏感,而 XGBoost 和梯度提升樹模型則不然。這意味著為了評估具有各種超引數設定的模型的效能,執行超引數最佳化並使用交叉驗證或驗證資料集非常重要。
如何避免 XGBoost 過擬合
在建立 XGBoost 或梯度提升樹模型以防止過擬合時,您可以遵循以下一些準則。
1. 使用更少的樹
處理 XGBoost 模型過擬合的一種技術是減少模型中的樹的數量。大型的多引數模型通常比簡單的小型模型更容易過擬合。透過減少模型中的樹的數量,您可以簡化模型並降低過擬合的可能性。
2. 使用淺層樹
簡化 XGBoost 模型並防止其過擬合的另一種方法是限制模型僅使用淺層樹。因此,每棵樹都經歷較少的拆分,從而降低了模型的複雜性。
3. 使用較低的學習率
降低學習率也會使您的 XGBoost 模型不太容易過擬合。這將作為一種正則化技術,以防止您的模型過分關注毫無意義的細節。
4. 減少特徵數量
簡化機器學習模型的另一種極佳技術是限制它可以使用的特徵。這是另一種防止 XGboost 模型過擬合的有用方法。
5. 使用大型訓練資料集
訓練資料集的大小是可能影響模型過擬合可能性的一個重要因素。使用更大的資料集將降低模型過擬合的可能性。如果您發現您的 XGBoost 模型過擬合併且您可以訪問更多訓練資料,請嘗試增加用於訓練模型的資料量。
控制 XGBoost 中過擬合的技術
為了防止 XGBoost 過擬合,我們可以使用幾種方法。讓我們在這裡看看每一個 -
正則化:正則化是一種防止模型變得過於複雜的方法。由於複雜性受到懲罰,因此模型更難以記住資料。
提前停止:如果在預定義的迴圈次數後,模型在驗證集上的效能沒有提高,則可以使用稱為“提前停止”的技術停止訓練過程。這可以防止模型訓練過長時間並過度擬合訓練集。
限制樹的深度:如前所述,非常深的樹會捕獲過多的細節,這可能導致過擬合。可以限制樹的深度以防止模型變得過於複雜。
學習率 (Eta):模型的學習率決定了它學習的速度。較高的學習率會導致更快的學習,但模型突然改變其非普遍分佈的學習模式的能力可能導致過擬合。