屬性子集選擇的基本方法是什麼？

資料探勘資料庫資料結構

屬性子集選擇透過消除不相關或冗餘的屬性（或維度）來減少資料集的大小。屬性子集選擇的目的是發現一組最小的屬性，使得所得的資料類別的機率分佈儘可能接近使用所有屬性訪問的原始分佈。在減少的屬性集上進行資料探勘具有額外的優勢。它減少了發現的模式中出現的多個屬性，有助於使模式更易於理解。

對於 n 個屬性，存在 2ⁿ 個可能的子集。對屬性的最優子集進行窮舉搜尋可能非常昂貴，特別是當 n 和多個數據類別增加時。因此，經常使用探索減少搜尋空間的啟發式方法進行屬性子集選擇。

這些方法通常是貪婪的，因為在搜尋屬性空間時，它們總是做出當時看起來最好的選擇。它們的策略是在希望這將導致全域性最優解的情況下做出區域性最優選擇。這種貪婪方法在實踐中是有效的，並且可以接近估計最優解。

最佳和最差屬性通常使用統計顯著性檢驗來確定，這些檢驗認為屬性彼此獨立。還可以使用其他一些屬性評估度量，包括用於構建分類決策樹的資訊增益度量。

屬性子集選擇的方法如下：

**逐步前向選擇** - 該過程從一個空屬性集作為簡化集開始。確定原始屬性中最好的一個並將其新增到簡化集中。在每個後續迭代或步驟中，將剩餘原始屬性中最好的一個插入到該集中。
**逐步後向消除** - 該過程從完整的屬性集開始。在每一步中，它都會刪除集合中剩餘的最差屬性。
**前向選擇和後向消除的組合** - 可以將逐步前向選擇和後向消除方法連線起來，以便在每一步中，該過程選擇最佳屬性並從剩餘屬性中消除最差屬性。
**決策樹歸納** - 包括 ID3、C4.5 和 CART 在內的決策樹演算法最初是為分類而設計的。決策樹歸納構建了一個類似流程圖的結構，其中每個內部（非葉）節點表示對屬性的測試，每個分支對應於測試的結果，每個外部（葉）節點表示類預測。在每個節點上，演算法選擇“最佳”屬性將資料劃分為各個類。

基尼係數

更新於： 2021年11月19日

3K+ 瀏覽量

開啟你的職業生涯

透過完成課程獲得認證

廣告

© . All rights reserved.