資料探勘中什麼是單屬性評估器？

資料探勘資料庫資料結構

在單屬性評估器中，它可以與Ranker搜尋方法一起使用，以建立一個排名列表，Ranker從中丟棄給定數量的專案。它也用於RankSearch方法。

Relief屬性評估是基於例項的 - 它隨機抽取例項並檢查相同和多個類別的相鄰例項。它適用於離散和連續的類資料。引數定義要取樣的多個例項，要檢查的各種鄰居，是否按距離對鄰居加權，以及一個指數函式，該函式控制權重隨距離增加而衰減的方式。

資訊增益屬性評估 (InfoGain Attribute Eval) - 它透過計算屬性關於類的資訊增益來計算屬性。它首先使用基於MDL的離散化方法對數值屬性進行離散化。這種方法以及接下來的三種方法可以將缺失值視為獨立值，或者根據其他值的頻率成比例地分配計數。

卡方屬性評估 (Chi-Squared Attribute Eval) - 它透過計算屬性關於類的卡方統計量來計算屬性。

增益率屬性評估 (Gain-Ratio Attribute Eval) - 它透過計算屬性關於類的增益率來計算屬性。

對稱不確定性屬性評估 (Symmetrical Uncert-Attribute Eval) - 它透過計算屬性關於類的對稱不確定性來計算屬性。

OneR屬性評估 (OneRAttribute Eval) - 它需要OneR分類器採用的精度度量。它可能需要訓練資料進行計算（就像OneR一樣），或者可以使用內部交叉驗證——多個摺疊是一個引數。它可以選擇OneR的簡單離散化方法——最小桶大小是一個引數。

支援向量機屬性評估 (SVM-Attribute Eval) - 它使用具有線性支援向量機的遞迴特徵消除來計算屬性。根據其係數的大小，一次選擇一個屬性，在每次選擇後重新學習。

實際上，可以使用一定比例的屬性，直到剩餘一定數量的屬性為止，然後迅速切換到固定數量的方法，快速消除許多屬性，然後更深入地考慮每個剩餘屬性。

各種引數被傳遞給支援向量機——複雜度、epsilon、容差和使用的過濾方法。

主成分和潛在語義分析變換屬性集。對於主成分，新屬性按其特徵值排序。可以選擇一個子集，方法是選擇足夠的特徵向量來解釋給定比例的方差（預設為95％）。最後，可以將簡化後的資料轉換回原始空間。

潛在語義分析將奇異值分解應用於訓練資料。奇異值分解與主成分分析相關——兩者都產生作為原始屬性值的線性組合的方向，但不同之處在於它是從包含原始資料值的矩陣而不是屬性相關性或協方差矩陣計算出來的。

基尼係數

更新於：2022年2月11日

瀏覽量：132

啟動您的職業生涯

透過完成課程獲得認證

廣告

© . All rights reserved.