決策樹歸納法的特點是什麼?


決策樹歸納法有以下幾個特點:

決策樹歸納法是一種構建分類模型的非引數方法。換句話說,它不需要對類和不同屬性滿足的機率分佈型別進行任何先驗假設。

尋找最優決策樹是一個NP完全問題。許多決策樹演算法採用基於啟發式的方法來指導其在巨大的假設空間中的搜尋。

已經開發出各種技術來構建計算代價低的決策樹,即使訓練集規模非常大,也能快速構建模型。此外,一旦構建了決策樹,定義測試資料就非常快,最壞情況下的複雜度為O(w),其中w是樹的最大深度。

決策樹,特別是較小的樹,易於解釋。在許多資料集上,樹的效率也與幾種分類方法相當。

決策樹支援對學習離散值函式的表達性描述。但它們不能很好地推廣到某些型別的布林問題。例如,奇偶校驗函式,當有奇數(偶數)個值為True的布林屬性時,其值為0(1)。

冗餘屬性的存在不會影響決策樹的有效性。如果一個屬性與資料中的另一個屬性高度相關,則該屬性是冗餘的。不能使用兩個冗餘屬性進行劃分,因為另一個屬性已被選擇。

但是,如果資料集包含多個無關屬性(即對分類任務沒有幫助的屬性),則在樹的生長過程中可能會意外地選擇多個無關屬性,從而導致決策樹比必要的更大。特徵選擇技術可以透過在預處理過程中消除無關屬性來幫助提高決策樹的精度。

由於許多決策樹演算法使用自頂向下遞迴劃分方法,因此資料量在向下遍歷樹時會越來越小。在葉節點處,資料量可能太小,無法對節點的類別描述做出具有統計意義的決策。這就是所謂的“資料碎片問題”。一種可能的解決方案是在資料量低於特定閾值時禁止進一步分裂。

子樹可以在決策樹中重複多次。這使得決策樹比必要的更難理解,也可能更難執行。決策樹的執行效率可能會受到每個內部節點只依賴於單個屬性測試條件的影響。

一些決策樹演算法需要分治劃分方法,相同的測試條件可以應用於屬性空間的多個部分,從而導致子樹複製問題。

更新於:2022年2月11日

2K+瀏覽量

啟動您的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.