什麼是 CART 剪枝演算法?


CART 是一種著名的決策樹演算法,由 Leo Breiman、Jerome Friedman、Richard Olshen 和 Charles Stone 於 1984 年首次提出。CART 代表分類和迴歸樹。CART 演算法改進二叉樹,並繼續劃分,因為可以找到新的分割點來提高純度。

有一些更簡單的子樹,每個子樹在模型複雜度和訓練組誤分類率之間定義了不同的權衡。CART 演算法將一組這樣的子樹識別為候選模型。這些候選子樹用於驗證組,誤分類率最低的樹被選為最終模型。

CART 演算法透過重複剪枝的過程識別候選子樹。目標是首先剪枝那些每個葉子支援的預測能力最少的樹枝。它可以識別這些最不利的樹枝,CART 基於一個稱為調整誤差率的概念。

這是一個度量,它透過對樹中多個葉子的複雜度懲罰來提高訓練集上每個節點的誤分類成本。調整誤差率可以識別弱分支(其誤分類率不足以克服懲罰的分支)並指示對其進行剪枝。

下一個任務是從候選子樹池中選擇一個在新的記錄上執行效果最好的子樹。每個候選子樹都可以定義驗證集中的資料。用最低的完整誤差率執行此任務的樹被定義為獲勝者。獲勝的子樹已被充分剪枝以消除過度訓練的影響,但不會過度剪枝以至於丟失有價值的資料。

因為這種剪枝演算法依賴於誤分類率,而沒有考慮每個分類的機率,所以它恢復了一些子樹,其葉子都建立了與也建立該分類的公共父級相同的分類。

目標是選擇一小部分資料(例如,前 1% 或 10%),這種剪枝演算法可能會損害樹的實現,因為一些被刪除的葉子包含目標類的非常大的區域。有各種工具,包括 SAS Enterprise Miner,使使用者能夠為這些方法最佳化剪枝樹。

獲勝的子樹是根據其用於定義驗證集中的資料時的完整誤差率選擇的。可以預期,所選的子樹在用於多個數據集時將繼續成為最佳的實現子樹,但生成它以進行選擇的誤差率可能會略微誇大其強度。

更新於: 2022 年 2 月 15 日

824 次瀏覽

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.