什麼是層次方法?


層次聚類技術透過將資料物件組合成叢集樹來工作。層次聚類演算法可以是自頂向下或自底向上的。真實的層次聚類方法的質量由於其無法在合併或拆分決策完成後執行調整而降低。

叢集的合併基於叢集之間的距離。廣泛使用的叢集間距離度量如下,其中 mi 是叢集 Ci 的均值,ni 是 Ci 中點的數量,|p – p’| 是兩點 p 和 p’ 之間的距離。

層次聚類方法的型別

層次聚類方法有兩種型別,如下所示:

凝聚層次聚類 (AHC) - AHC 是一種自底向上的聚類方法,其中叢集具有子叢集,子叢集又具有子叢集,依此類推。它從將每個物件放在其自己的叢集開始,然後將這些原子叢集組合成越來越大的叢集,直到所有物件都在一個叢集中,或者直到滿足特定的終止條件。大多數層次聚類方法都應用於此型別。它們僅在其叢集間相似性的定義上有所不同。

例如,一種稱為 AGNES(凝聚巢狀)的方法使用單鏈接技術,其工作原理如下。假設有一組位於矩形中的物件。最初,每個物件都被放在它自己的叢集中。然後,根據某些原則逐步組合叢集,包括合併叢集中最近物件之間歐幾里德距離最小的叢集。

分裂層次聚類 (DHC) - DHC 是一種自頂向下的方法,使用較少。它的工作方式與凝聚聚類相似,但方向相反。此方法從包含所有物件的單個叢集開始,然後連續拆分生成的叢集,直到只剩下單個物件的叢集,或者直到滿足特定的終止條件,包括獲得所需的叢集數量或兩個最近叢集之間的距離高於特定的閾值距離。

分裂方法通常不容易獲得,而且很少使用,因為很難做出在高層次上進行分割的正確決策。DIANA(分部分析)是分裂層次聚類方法的一個例子。它的工作順序相反。最初,所有物件都位於一個叢集中。因此,叢集根據某些原則進行劃分,包括根據叢集中最近鄰物件之間最大的歐幾里德距離來劃分叢集。

更新於:2021年11月24日

5K+ 次檢視

啟動你的職業生涯

完成課程獲得認證

開始
廣告