決策樹如何用於分類?
決策樹歸納是從帶類標籤的訓練元組中學習決策樹的過程。決策樹是一種類似圖表順序的樹形結構,其中每個內部節點(非葉節點)表示對屬性的測試,每個分支定義測試的結果,每個葉節點(或終端節點)代表一個類標籤。樹中最高的節點是根節點。
它定義了“購買計算機”的概念,即預測AllElectronics的使用者是否可能購買計算機。內部節點用矩形表示,葉節點用橢圓表示。各種決策樹演算法只建立二叉樹(其中每個內部節點精確地分支到另外兩個節點),而其他演算法可以建立非二叉樹。
給定一個元組X,其相關類標籤是匿名的,元組的屬性值將與決策樹進行比較。從根節點到葉節點跟蹤一個方向,該方向會影響該元組的類預測。決策樹可以轉換為分類規則。
決策樹分類器的開發不需要一些領域知識或引數設定,因此適用於探索性知識發現。
決策樹可以處理高維資料。它們以樹的形式描述獲得的知識,直觀易懂。決策樹歸納的學習和分類階段簡單快捷。
一般來說,決策樹分類器效率高。但是,成功的應用取決於手頭的資料。決策樹歸納演算法已用於多個應用領域的分類,包括醫學、製造和生產、貨幣分析、天文學和分子生物學。決策樹基於多個商業規則歸納系統。
在樹構建過程中,屬性選擇度量用於選擇最能將元組劃分到不同類別的屬性。當構建決策樹時,一些分支可能反映訓練記錄中的噪聲或異常值。樹剪枝試圖識別和消除此類分支,目的是提高對未見資料的分類精度。
ID3、C4.5和CART採用貪婪(即非回溯)方法,其中決策樹以自頂向下的遞迴分治法構建。幾種決策樹歸納演算法也遵循這種自頂向下的方法,它從訓練元組集合及其相關的類標籤開始。在構建樹的過程中,訓練集合被遞迴地劃分為更小的子集。
廣告
資料結構
網路
關係型資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP