如何減少預測變數的數量?
資料探勘中一個常見的問題是,當可以使用多個變數作為模型中的預測變數時,利用迴歸方程預測因變數的值。
另一個考慮因素是支援包含大量變數,希望能夠發現以前隱藏的關係。例如,一家公司發現,購買椅子和桌子腿防磨保護器的客戶信用風險較低。
在將所有可能的變數都放入模型之前,有幾個原因需要謹慎。
為預期預測設定全部預測變數可能代價高昂或不可行。
能夠更準確地計算較少的預測變數(例如,在調查中)。
預測變數越多,資料中缺失值的可能性就越高。如果我們刪除或插補具有缺失值的記錄,多個預測變數將導致更高的記錄刪除或插補率。
簡約性是良好模型的一個基本特徵。在引數較少的模型中,我們可以獲得更多關於預測變數影響的見解。
由於多個變數模型中的多重共線性,迴歸係數的估計值可能模稜兩可。(多重共線性是指兩個或多個預測變數與結果變數之間共享相同的線性關係)。
簡約模型的迴歸係數更強。一個非常粗略的經驗法則是有幾個記錄 n 大於 5(p + 2),其中 p 是預測變數的數量。
可以證明,使用與結果變數不相關的預測變數會增加預測的方差。
可以證明,刪除與結果變數相關的預測變數可以增加預測的平均誤差(偏差)。
最後兩點表明,預測變數的數量太少和太多之間存在權衡。一般來說,接受一些偏差可以減少預測的方差。這種偏差-方差權衡對於多個預測變數尤其重要,因為模型中可能存在一些變數,這些變數具有與噪聲標準偏差相對應的小系數,並且還觀察到至少與其他變數具有中等程度的相關性。
刪除此類變數將改進預測,因為它減少了預測方差。這種型別的偏差-方差權衡是用於預測和分類的資料探勘過程的基本要素。
廣告