什麼是基於取樣的方法?
取樣是一種廣泛用於處理類別不平衡問題的解決方法。取樣的概念是改變示例的分佈,以便在訓練集中很好地定義稀有類別。有各種取樣技術,例如欠取樣、過取樣以及這兩種方法的混合。例如,考慮一個包含 100 個正例和 1000 個反例的資料集。
在欠取樣方法中,會選擇 100 個反例的隨機樣本,與所有正例一起提前形成訓練集。這種方法的一個問題是,一些有用的反例可能無法被選中用於訓練,因此導致模型效果低於最佳。
解決此問題的方法是多次實現欠取樣並匯出多個分類器,類似於整合學習方法。可以使用集中欠取樣方法,其中取樣過程會針對應移除的反例(例如,那些遠離決策邊界的反例)做出明智的選擇。
過取樣會反映正例,直到訓練集具有相同數量的正例和反例。過取樣對使用包括決策樹在內的分類器開發決策邊界的影響。正例被錯誤分類,因為沒有足夠的示例來驗證形成新的決策邊界以獨立正例和反例。
但是對於噪聲資訊,過取樣可能會導致模型過擬合,因為多個噪聲示例可以被複制多次。過取樣不會將一些新資料插入訓練集。複製正例可以防止學習演算法修剪定義包含一些訓練示例的區域(即小析取)的模型的特定部分。更多的正例也會影響模型構建的計算時間增加。
混合方法需要一組欠取樣多數類和過取樣稀有類以實現統一的類分佈。可以使用隨機或集中子取樣來實現欠取樣。可以透過複製當前的正例或在當前正例的鄰域生成新的正例來進行過取樣。
廣告