基於圖的聚類方法有哪些？

資料探勘資料庫資料結構

將一組物理或抽象物件組合成相同物件的類別，這個過程稱為聚類。一個聚類是一組資料物件，這些物件在同一個聚類中彼此相似，並且與其他聚類中的物件不同。在許多應用中，可以將一組資料物件作為一個整體來考慮。聚類分析是一項重要的活動。

聚類有助於識別異常值。相同的值被組織成聚類，而那些落在聚類之外的值被稱為異常值。聚類技術將資料元組視為物件。它們將物件劃分成組或聚類，以便一個聚類中的物件彼此“相似”，而與其他聚類中的物件“不同”。通常根據基於距離函式的物件在空間中的“接近程度”來定義。

基於圖的聚類有各種方法，如下所示：

稀疏化鄰近圖，只保留物件與其最近鄰的連線。這種稀疏化有利於處理噪聲和異常值。它還可以使用為稀疏圖生成的極其有效的圖劃分演算法。

它可以基於兩個物件傳送的多個最近鄰來表示它們之間的相似性度量。這種方法基於這樣的觀察結果：一個物件及其最近鄰通常屬於同一類，對於克服高維性和密度變化的聚類問題非常有用。

它可以表示核心物件並在其周圍建立聚類。在基於圖的聚類中，重要的是要引入基於鄰近圖或稀疏化鄰近圖的密度概念。與 DBSCAN 一樣，圍繞核心物件建立聚類導致了一種可以發現不同形狀和大小的聚類的聚類方法。

它可以使用鄰近圖中的資料來支援對是否應該合併兩個聚類的更復雜的計算。特別是，只有當生成的聚類將具有與初始兩個聚類相同的特性時，才會合併兩個聚類。

它可以首先討論鄰近圖的稀疏化，支援兩種技術的例項，其聚類方法基於這種方法，例如與單連線聚類演算法相同的 MST 和 Opossum。

一種層次聚類演算法，它需要一個自相似性的概念來確定是否應該合併聚類。它可以定義共享最近鄰 (SNN) 相似性（一種新的相似性度量），並學習 Jarvis-Patrick 聚類演算法，該演算法需要這種相似性。

Ginni

更新於：2022年2月14日

1K+ 瀏覽量

開啟你的職業生涯

完成課程獲得認證

廣告

© . All rights reserved.