資料探勘中K均值演算法的附加問題是什麼?
K均值演算法存在以下幾個問題:
處理空簇 - 前面給出的基本K均值演算法的第一個問題是,如果在分配階段沒有點分配給某個簇,則可能會出現空簇。如果發生這種情況,則需要一種方法來選擇替代質心,因為平方誤差將大於必要值。
一種方法是選擇距離最近質心最遠的點。如果這去除了當前貢獻某些總平方誤差的點。另一種方法是從具有最大SSE的簇中選擇替代質心。這通常會劃分簇並降低聚類的完整SSE。如果有多個空簇,則可以重複此過程多次。
離群值 - 當使用平方誤差方法時,離群值會過度傾向於發現的簇。具體來說,當存在離群值時,生成的簇質心(原型)可能無法像它們那樣具有代表性,因此SSE也會更高。
最好先找到離群值並將其移除。必須認識到,存在某些不需要移除離群值的聚類應用。當聚類用於資料壓縮時,應聚類每個點,並且在某些情況下,包括財務分析,可能的離群值,例如異常盈利的使用者,可能是感興趣的點。
通過後處理減少SSE - 減少SSE的方法是查詢更多簇,即需要更大的K。在這種情況下,很可能會改進SSE,但不一定需要增加簇的數量。這是可能的,因為K均值通常會收斂到區域性最小值。
各種方法用於“修復”生成的簇,以建立具有較低SSE的聚類。該方法的目標是單個簇,因為完整的SSE很容易是每個簇貢獻的SSE的總和。它可以透過對簇執行多個操作(包括拆分或合併簇)來更改總SSE。
一種方法是使用替代的簇拆分和合並過程。在拆分過程中,簇被劃分,而在合併過程中,簇被組合。在這種方法中,可以撤銷區域性SSE最小值並建立具有所需簇數量的聚類解決方案。以下是拆分和合並階段中使用的一些方法:
廣告
資料結構
網路
關係資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP