無監督離散化的幾種方法是什麼?
如果一個屬性只有少量(有限的)可能的取值,則該屬性是離散的;而連續屬性則被認為具有大量(無限的)可能的取值。
換句話說,離散資料屬性可以看作是一個範圍為有限群的函式,而連續資料屬性是一個範圍為無限完全有序群(通常是一個區間)的函式。
離散化的目的是透過將連續屬性劃分為幾個區間來減少連續屬性可能取值的個數。解決離散化問題的方法有兩種。一種是在沒有訓練類中例項類的某些知識的情況下量化每個屬性,這被稱為無監督離散化。
第二種是在離散化監督離散化時考慮類。在處理類未知或不存在的聚類問題時,前者是唯一可能性。
離散化數值屬性的明顯方法是將其範圍劃分為預定數量的等間隔區間:一個固定的、與資料無關的尺度。這通常在收集資訊時完成。
在無監督離散化方法中,它存在這樣的風險:透過使用過於粗略的等級或透過邊界的相反選擇不必要地將多個類的多個例項組合在一起,從而破壞在學習過程中本來會很有益的區別。
**等寬分箱法通常會使例項分佈非常不均勻**——有些箱包含多個例項,而另一些箱則不包含任何例項。這會嚴重損害屬性幫助構建良好決策結構的能力。最好允許區間大小不同,選擇它們以便每個區間中都包含相似數量的訓練樣本。
這種方法被稱為等頻分箱法,它根據沿該軸的例項分佈將屬性的範圍劃分為預定的幾個箱,有時也稱為直方圖均衡化,因為如果它可以獲取生成的箱文字的直方圖,它通常是平坦的。如果它可以將多個箱視為資源,則此方法可以最好地利用它。
等頻分箱法與例項的類別無關,這可能會產生不良邊界。例如,如果某個箱中的某些例項屬於一個類別,而下一個較大箱中的某些例項屬於另一個類別,除了第一個例項屬於初始類別外,當然有理由尊重類別劃分並將第一個例項包含在較早的箱中,犧牲相同的頻率屬性以換取同質性的好處。
廣告