什麼是屬性選擇度量?
屬性選擇度量是一種啟發式方法,用於選擇“最佳”分離給定資料分割槽 D(包含類標記的訓練元組)為單一類的分割測試。
如果它可以根據分割標準的結果將 D 分割成更小的分割槽,理想情況下,每個分割槽都可以是純的(即,落入給定分割槽的一些元組可以屬於同一類)。
從概念上講,“最佳”分割標準最接近於產生這種方法的結果。屬性選擇度量稱為分割規則,因為它們決定了如何劃分給定節點處的元組。
屬性選擇度量支援對定義給定訓練元組的每個屬性進行排序。具有最佳度量方法的屬性被選為給定元組的分割屬性。
如果分割屬性是常量值,或者如果它被限制為二叉樹,則相應地,還應將分割點或分割子集確定為分割標準的一部分。
為分割槽 D 生成的樹節點用分割標準標記,為標準的每個結果增加分支,並相應地隔離元組。有三種著名的屬性選擇度量,包括資訊增益、增益率和基尼指數。
資訊增益 - 資訊增益用於確定提供關於類的最大資訊量的最佳特徵/屬性。它遵循熵的方法,同時旨在降低熵的水平,從根節點到葉節點。
令節點 N 定義或儲存分割槽 D 的元組。具有最大資訊增益的屬性被選為節點 N 的分割屬性。此屬性最大程度地減少了定義結果子分割槽中元組所需的資料,並反映了這些子分割槽中最小程度的隨機性或“不純度”。
增益率 - 資訊增益度量存在偏差,傾向於具有多個結果的測試。它可以選擇具有大量值的屬性。例如,考慮一個用作唯一識別符號的屬性,例如產品 ID。
對產品 ID 進行分割會導致大量分割槽,每個分割槽只包含一個元組。因為每個分割槽都是唯一的,所以根據此分割槽定義資料集 D 所需的資料將是 Infoproduct_ID(D) = 0。
基尼指數 - 基尼指數可用於 CART。基尼指數計算 D(資料分割槽或訓練元組集合)的不純度,如下所示:
$$\mathrm{Gini(D)=1-\displaystyle\sum\limits_{i=1}^m p_i^2}$$
其中 pi 是 D 中的元組屬於類 Ci 的機率,並透過 |Ci,D|/|D| 計算得出。
資料結構
網路
RDBMS
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP