空間資料探勘的聚類方法有哪些？

資料探勘資料庫資料結構

聚類分析是統計學的一個分支，多年來一直被廣泛研究。使用這種技術的好處是可以直接從資料中發現有趣的結構或聚類，而無需利用任何背景知識，例如概念層次結構。

在統計學中使用的聚類演算法，如 PAM 或 CLARA，據報道在計算複雜度方面效率低下。出於效率方面的考慮，開發了一種稱為 CLARANS（基於隨機搜尋的大型應用程式聚類）的新演算法用於聚類分析。

**PAM（圍繞類中心的劃分）** - 假設有 n 個物件，PAM 透過首先為每個聚類找到一個代表性物件來找到 k 個聚類。這種代表性物件（即聚類中位於中心的點）稱為類中心。

在選擇 k 個類中心後，演算法反覆嘗試建立最佳的類中心選擇，分析所有可行的物件對，使得一個物件是類中心，另一個物件不是。為每個此類組合計算聚類質量的度量。

在一輪迭代中選擇的好的點被選為下一輪迭代的類中心。單次迭代的成本為 O(k(n−k)²)。因此，對於 n 和 k 的較大值來說，在計算上效率非常低。

**CLARA（大型應用程式聚類）** - PAM 和 CLARA 演算法之間的區別在於，後者是基於取樣的。只有一小部分真實資料被選為資料的代表，並且使用 PAM 從該樣本中選擇類中心。

其思想是，如果樣本以相當隨機的方式選擇，那麼它會正確地代表整個資料集，因此，選擇的代表性物件（類中心）將類似於從整個資料集中選擇的。

CLARA 繪製多個樣本，並輸出這些樣本中良好的聚類。CLARA 可以處理比 PAM 更高的資料集。現在每次迭代的複雜度變為 O(kS²+k(n−k))，其中 S 是樣本的大小。

**CLARANS（基於隨機搜尋的大型應用程式聚類）** - CLARANS 演算法結合了 PAM 和 CLARA，透過僅搜尋資料集的子集來搜尋，並且在任何給定時間它都不會將其自身限制在某個樣本上。雖然 CLARA 在搜尋的每個階段都有一個恆定的樣本，但 CLARANS 在搜尋的每個階段都以一定的隨機性繪製樣本。

聚類階段可以表示為搜尋一個圖，其中每個節點都是一個可能的解決方案，即一組 k 個類中心。替換單個類中心後獲得的聚類稱為當前聚類的鄰居。

Ginni

更新於： 2022年2月16日

7K+ 次瀏覽

開啟你的職業生涯

透過完成課程獲得認證

廣告

© . All rights reserved.