決策樹如何用於分類？

資料探勘資料庫資料結構

決策樹歸納是從帶類標籤的訓練元組中學習決策樹的過程。決策樹是一種類似圖表順序的樹形結構，其中每個內部節點（非葉節點）表示對屬性的測試，每個分支定義測試的結果，每個葉節點（或終端節點）代表一個類標籤。樹中最高的節點是根節點。

它定義了“購買計算機”的概念，即預測AllElectronics的使用者是否可能購買計算機。內部節點用矩形表示，葉節點用橢圓表示。各種決策樹演算法只建立二叉樹（其中每個內部節點精確地分支到另外兩個節點），而其他演算法可以建立非二叉樹。

給定一個元組X，其相關類標籤是匿名的，元組的屬性值將與決策樹進行比較。從根節點到葉節點跟蹤一個方向，該方向會影響該元組的類預測。決策樹可以轉換為分類規則。

決策樹分類器的開發不需要一些領域知識或引數設定，因此適用於探索性知識發現。

決策樹可以處理高維資料。它們以樹的形式描述獲得的知識，直觀易懂。決策樹歸納的學習和分類階段簡單快捷。

一般來說，決策樹分類器效率高。但是，成功的應用取決於手頭的資料。決策樹歸納演算法已用於多個應用領域的分類，包括醫學、製造和生產、貨幣分析、天文學和分子生物學。決策樹基於多個商業規則歸納系統。

在樹構建過程中，屬性選擇度量用於選擇最能將元組劃分到不同類別的屬性。當構建決策樹時，一些分支可能反映訓練記錄中的噪聲或異常值。樹剪枝試圖識別和消除此類分支，目的是提高對未見資料的分類精度。

ID3、C4.5和CART採用貪婪（即非回溯）方法，其中決策樹以自頂向下的遞迴分治法構建。幾種決策樹歸納演算法也遵循這種自頂向下的方法，它從訓練元組集合及其相關的類標籤開始。在構建樹的過程中，訓練集合被遞迴地劃分為更小的子集。

基尼指數

更新於：2022年2月16日

1K+ 次瀏覽

啟動你的職業生涯

完成課程獲得認證

廣告

© . All rights reserved.