什麼是C5剪枝演算法?


C5是澳大利亞研究員J. Ross Quinlan多年來一直在開發和改進的決策樹演算法的當前版本。之前的版本ID3(成立於1986年)在機器學習領域具有影響力,其後續版本被用於多種商業資料探勘服務。

C5生成的樹與CART改進的樹相同。與CART一樣,C5演算法首先生成一個過擬合樹,然後對其進行剪枝以建立更有效的模型。剪枝方法很複雜,但C5不使用驗證集來選擇候選子樹。

用於生成樹的相同資料也用於確定如何剪枝。這反映了該演算法在學術界的根基,在過去,大學研究人員很難獲得大量的真實資料用於訓練集。因此,他們花費大量時間和精力試圖從他們有限的資料集中提取儘可能多的資訊——這是商業世界的資料探勘人員不會遇到的問題。

C5透過確定每個節點的錯誤率並認為真實錯誤率可能更糟來剪枝。如果N條記錄出現在一個節點上,其中E條記錄被錯誤分類,那麼該節點的錯誤率為E/N。

C5需要一個與統計抽樣的類比來估計葉節點上可能出現的最大錯誤成本。這個類比透過將葉節點的資訊視為一系列試驗的結果來進行,每次試驗都有兩種可能的結果。

C5認為在訓練資料上觀察到的錯誤數量是這個範圍的下限,並用上限來獲得葉節點在未見資料上的預測錯誤成本E/N。節點越低,錯誤成本越高。當節點上多個錯誤的高階估計值小於其子節點的錯誤估計值時,則剪枝子節點。

模型的主要目標是在以前未見過的資料上做出一致的預測。任何無法實現該目標的規則都應該從模型中移除。一些資料探勘工具允許使用者手動剪枝決策樹。

這是一個有用的功能,但人們可以期待資料探勘軟體支援基於資料的自動剪枝作為一個選項。這樣的應用程式需要比“驗證集結果的分佈與訓練集結果的分佈不同”更客觀的標準來拒絕一個分割。

更新於:2022年2月15日

339 次瀏覽

啟動你的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.