層次聚類中的元素是什麼？

資料探勘資料庫資料結構

層次聚類方法透過將資料物件合併到一個聚類樹中來操作。層次聚類演算法可以是自上而下或自下而上的。準確的層次聚類技術的特徵由於其缺乏執行調整而退化，因為合併或拆分決策已完成。

層次聚類有各種元素，如下所示：

缺乏全域性目標函式

凝聚層次聚類方法使用多個元素在每個步驟中本地決定哪些聚類必須合併（或對於分裂方法進行拆分）。

此方法產生聚類演算法，從而避免了進行解決複雜組合最佳化問題的難度的發生。

能夠處理不同聚類大小

凝聚層次聚類的元素是如何考慮組合的聚類組的關聯大小。它僅用於包含總和的聚類鄰近方案，例如質心、Ward's 和組平均值。

有兩種方法，例如加權方法，它平等地考慮所有聚類，以及未加權方法，它將每個聚類中的點數考慮在內。加權或未加權的術語定義資料點，而不是聚類。換句話說，平等地考慮大小不同的聚類會為不同聚類中的點提供多個權重，而將聚類大小考慮在內會為不同聚類中的點提供相似的權重。

合併決策是最終的

凝聚層次聚類演算法影響到建立關於組合兩個聚類的良好區域性決策，因為它們可能需要關於所有點的成對相似性的資料。因為已經做出合併兩個聚類的決定，所以下次無法撤消。此方法避免了局部最佳化元素成為全域性最佳化標準。

例如，儘管 K 均值中的“最小化平方誤差”標準用於確定在 Ward's 方法中要合併哪些聚類，但每個級別的聚類並不定義關於總 SSE 的區域性最小值。實際上，聚類不是動態的，因為一個聚類中的點可能比它與其最近聚類的質心更靠近另一個聚類的質心。

一些嘗試克服合併是最終限制的方法。一種方法嘗試透過修改樹周圍的分支來提供層次聚類，以增強全域性目標函式。另一種方法需要包括 Kmeans 的分割槽聚類技術來生成一些小的聚類，然後使用這些小聚類作為起點來實現層次聚類。

Ginni

更新於： 2022年2月14日

199 次檢視

開啟您的職業生涯

透過完成課程獲得認證

廣告

© . All rights reserved.