什麼是屬性選擇度量?


屬性選擇度量是一種啟發式方法,用於選擇“最佳”分離給定資料分割槽 D(包含類標記的訓練元組)為單一類的分割測試。

如果它可以根據分割標準的結果將 D 分割成更小的分割槽,理想情況下,每個分割槽都可以是純的(即,落入給定分割槽的一些元組可以屬於同一類)。

從概念上講,“最佳”分割標準最接近於產生這種方法的結果。屬性選擇度量稱為分割規則,因為它們決定了如何劃分給定節點處的元組。

屬性選擇度量支援對定義給定訓練元組的每個屬性進行排序。具有最佳度量方法的屬性被選為給定元組的分割屬性。

如果分割屬性是常量值,或者如果它被限制為二叉樹,則相應地,還應將分割點或分割子集確定為分割標準的一部分。

為分割槽 D 生成的樹節點用分割標準標記,為標準的每個結果增加分支,並相應地隔離元組。有三種著名的屬性選擇度量,包括資訊增益、增益率和基尼指數。

資訊增益 - 資訊增益用於確定提供關於類的最大資訊量的最佳特徵/屬性。它遵循熵的方法,同時旨在降低熵的水平,從根節點到葉節點。

令節點 N 定義或儲存分割槽 D 的元組。具有最大資訊增益的屬性被選為節點 N 的分割屬性。此屬性最大程度地減少了定義結果子分割槽中元組所需的資料,並反映了這些子分割槽中最小程度的隨機性或“不純度”。

增益率 - 資訊增益度量存在偏差,傾向於具有多個結果的測試。它可以選擇具有大量值的屬性。例如,考慮一個用作唯一識別符號的屬性,例如產品 ID。

對產品 ID 進行分割會導致大量分割槽,每個分割槽只包含一個元組。因為每個分割槽都是唯一的,所以根據此分割槽定義資料集 D 所需的資料將是 Infoproduct_ID(D) = 0。

基尼指數 - 基尼指數可用於 CART。基尼指數計算 D(資料分割槽或訓練元組集合)的不純度,如下所示:

$$\mathrm{Gini(D)=1-\displaystyle\sum\limits_{i=1}^m p_i^2}$$

其中 pi 是 D 中的元組屬於類 Ci 的機率,並透過 |Ci,D|/|D| 計算得出。

更新於: 2022-02-16

25K+ 瀏覽量

啟動您的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.