資料探勘中K均值演算法的附加問題是什麼？

資料探勘資料庫資料結構

K均值演算法存在以下幾個問題：

處理空簇 - 前面給出的基本K均值演算法的第一個問題是，如果在分配階段沒有點分配給某個簇，則可能會出現空簇。如果發生這種情況，則需要一種方法來選擇替代質心，因為平方誤差將大於必要值。

一種方法是選擇距離最近質心最遠的點。如果這去除了當前貢獻某些總平方誤差的點。另一種方法是從具有最大SSE的簇中選擇替代質心。這通常會劃分簇並降低聚類的完整SSE。如果有多個空簇，則可以重複此過程多次。

離群值 - 當使用平方誤差方法時，離群值會過度傾向於發現的簇。具體來說，當存在離群值時，生成的簇質心（原型）可能無法像它們那樣具有代表性，因此SSE也會更高。

最好先找到離群值並將其移除。必須認識到，存在某些不需要移除離群值的聚類應用。當聚類用於資料壓縮時，應聚類每個點，並且在某些情況下，包括財務分析，可能的離群值，例如異常盈利的使用者，可能是感興趣的點。

通過後處理減少SSE - 減少SSE的方法是查詢更多簇，即需要更大的K。在這種情況下，很可能會改進SSE，但不一定需要增加簇的數量。這是可能的，因為K均值通常會收斂到區域性最小值。

各種方法用於“修復”生成的簇，以建立具有較低SSE的聚類。該方法的目標是單個簇，因為完整的SSE很容易是每個簇貢獻的SSE的總和。它可以透過對簇執行多個操作（包括拆分或合併簇）來更改總SSE。

一種方法是使用替代的簇拆分和合並過程。在拆分過程中，簇被劃分，而在合併過程中，簇被組合。在這種方法中，可以撤銷區域性SSE最小值並建立具有所需簇數量的聚類解決方案。以下是拆分和合並階段中使用的一些方法：

基尼係數 (Ginni)

更新於：2022年2月14日

8K+ 次瀏覽

啟動您的職業生涯

透過完成課程獲得認證

廣告

© . All rights reserved.