如何找到原始屬性的一個好的子集?


屬性子集選擇透過去除無關或冗餘屬性(或維度)來減少資料集的大小。屬性子集選擇的目的是發現一個最小的屬性集,使得資料的後續機率分佈儘可能接近使用所有屬性獲得的原始分佈。

對於 n 個屬性,有 2n 個可能的子集。對屬性的最優子集進行窮舉搜尋可能非常昂貴,特別是當 n 和資料類的數量增加時。因此,通常使用探索減少搜尋空間的啟發式方法進行屬性子集選擇。

這些方法通常是貪婪的,因為在搜尋屬性空間時,它們會不斷做出當時看來是好的選擇。它們的方法是在希望這將導致全域性最優解的情況下,做出區域性最優選擇。這種貪婪技術在實踐中效率很高,並且可以接近計算最優解。

“最佳”和“最差”屬性通常使用統計顯著性檢驗來確定,這些檢驗認為屬性彼此獨立。可以使用一些不同的屬性評估度量,包括用於構建分類決策樹的資訊增益度量。

屬性子集選擇的基本啟發式方法包括以下技術:

逐步前向選擇 - 該過程從一個空屬性集作為減少集開始。確定第一個屬性中最好的屬性,並將其插入到減少集中。在每次後續迭代或步驟中,將剩餘的初始屬性插入到該集中。

逐步後向消除 - 該過程從完整的屬性集開始。在每個階段,它都會消除集合中剩餘的最差屬性。

前向選擇和後向消除的組合 - 可以將逐步前向選擇和後向消除技術混合使用,以便在每個階段,該過程選擇最佳屬性並從剩餘屬性中消除最差屬性。

決策樹歸納 - 包括 ID3、C4.5 和 CART 在內的決策樹演算法最初是為分類而設計的。決策樹歸納構建一個流程圖狀結構,其中每個內部(非葉)節點表示對屬性的測試,每個分支對應於測試的結果,每個外部(葉)節點表示類預測。在每個節點上,演算法選擇“最佳”屬性將資訊劃分為單個類。

當決策樹歸納用於屬性子集選擇時,將從給定資訊構建一棵樹。樹中未出現的任何屬性都被認為是不相關的。出現在樹中的屬性組形成減少的屬性子集。

更新於: 2022年2月16日

169 次瀏覽

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.