如何解決包含障礙物的聚類問題?


分割槽聚類方法是可取的,因為它最小化了集合與其聚類中心之間的距離。如果可以選擇k-means方法,那麼在存在障礙物的情況下,聚類中心可能不可用。

例如,聚類中心可能位於湖中心。換句話說,k-medoids方法選擇叢集內的一個物件作為中心,從而保證不會出現此類問題。

每次選擇一個新的中心點時,都需要重新計算每個物件與其新選擇的聚類中心之間的距離。由於兩個物件之間可能存在障礙物,因此兩個物件之間的距離可以通過幾何計算(例如,涉及三角測量)來推導。

如果包含大量的物件和障礙物,計算成本可能會很高。包含障礙物的聚類問題可以使用圖形描述來定義。首先,如果連線點p和點q的直線不與任何障礙物相交,則點p從區域R中的另一個點q可見。

可見性圖是圖VG = (V, E),其中每個障礙物的頂點在V中都有一個等效節點,並且V中的兩個節點v1和v2當且僅當它們所定義的等效頂點彼此可見時,才由E中的邊連線。

令VG’ = (V’, E’)是由VG生成的可見性圖,透過在V’中插入兩個附加點p和q生成。E’包括在V0中新增兩個點的邊,如果這兩個點彼此可見。

它可以用來降低任何兩組物件或點之間距離計算的成本,可以使用多種預處理和最佳化方法。一種方法是將靠近在一起的點分組到微叢集中。這可以透過首先將區域R三角剖分,然後使用類似於BIRCH或DBSCAN的方法,將相似三角形中的附近點組合到微叢集中來完成。

透過處理微叢集而不是單個點,可以減少計算量。之後,可以實現預計算以構建兩種型別的連線索引,這取決於最短路徑的計算:

  • VV索引,用於某些障礙物頂點對。

  • MV索引,用於某些微叢集和障礙物頂點對。這些索引有助於進一步最佳化整體效能。

透過這種預計算和最佳化,可以有效地計算任意兩點(在微叢集粒度級別)之間的距離。因此,聚類過程可以以類似於典型的有效k-medoids演算法(包括CLARANS)的方式實現,併為大型資料集實現最佳聚類質量。

更新於:2022年2月17日

142 次瀏覽

開啟你的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.