如何找到原始屬性的一個好的子集？

資料探勘資料庫資料結構

屬性子集選擇透過去除無關或冗餘屬性（或維度）來減少資料集的大小。屬性子集選擇的目的是發現一個最小的屬性集，使得資料的後續機率分佈儘可能接近使用所有屬性獲得的原始分佈。

對於 n 個屬性，有 2n 個可能的子集。對屬性的最優子集進行窮舉搜尋可能非常昂貴，特別是當 n 和資料類的數量增加時。因此，通常使用探索減少搜尋空間的啟發式方法進行屬性子集選擇。

這些方法通常是貪婪的，因為在搜尋屬性空間時，它們會不斷做出當時看來是好的選擇。它們的方法是在希望這將導致全域性最優解的情況下，做出區域性最優選擇。這種貪婪技術在實踐中效率很高，並且可以接近計算最優解。

“最佳”和“最差”屬性通常使用統計顯著性檢驗來確定，這些檢驗認為屬性彼此獨立。可以使用一些不同的屬性評估度量，包括用於構建分類決策樹的資訊增益度量。

屬性子集選擇的基本啟發式方法包括以下技術：

逐步前向選擇 - 該過程從一個空屬性集作為減少集開始。確定第一個屬性中最好的屬性，並將其插入到減少集中。在每次後續迭代或步驟中，將剩餘的初始屬性插入到該集中。

逐步後向消除 - 該過程從完整的屬性集開始。在每個階段，它都會消除集合中剩餘的最差屬性。

前向選擇和後向消除的組合 - 可以將逐步前向選擇和後向消除技術混合使用，以便在每個階段，該過程選擇最佳屬性並從剩餘屬性中消除最差屬性。

決策樹歸納 - 包括 ID3、C4.5 和 CART 在內的決策樹演算法最初是為分類而設計的。決策樹歸納構建一個流程圖狀結構，其中每個內部（非葉）節點表示對屬性的測試，每個分支對應於測試的結果，每個外部（葉）節點表示類預測。在每個節點上，演算法選擇“最佳”屬性將資訊劃分為單個類。

當決策樹歸納用於屬性子集選擇時，將從給定資訊構建一棵樹。樹中未出現的任何屬性都被認為是不相關的。出現在樹中的屬性組形成減少的屬性子集。

Ginni

更新於： 2022年2月16日

169 次瀏覽

開啟你的職業生涯

透過完成課程獲得認證

廣告

© . All rights reserved.