空間資料探勘的聚類方法有哪些?
聚類分析是統計學的一個分支,多年來一直被廣泛研究。使用這種技術的好處是可以直接從資料中發現有趣的結構或聚類,而無需利用任何背景知識,例如概念層次結構。
在統計學中使用的聚類演算法,如 PAM 或 CLARA,據報道在計算複雜度方面效率低下。出於效率方面的考慮,開發了一種稱為 CLARANS(基於隨機搜尋的大型應用程式聚類)的新演算法用於聚類分析。
**PAM(圍繞類中心的劃分)** - 假設有 n 個物件,PAM 透過首先為每個聚類找到一個代表性物件來找到 k 個聚類。這種代表性物件(即聚類中位於中心的點)稱為類中心。
在選擇 k 個類中心後,演算法反覆嘗試建立最佳的類中心選擇,分析所有可行的物件對,使得一個物件是類中心,另一個物件不是。為每個此類組合計算聚類質量的度量。
在一輪迭代中選擇的好的點被選為下一輪迭代的類中心。單次迭代的成本為 O(k(n−k)2)。因此,對於 n 和 k 的較大值來說,在計算上效率非常低。
**CLARA(大型應用程式聚類)** - PAM 和 CLARA 演算法之間的區別在於,後者是基於取樣的。只有一小部分真實資料被選為資料的代表,並且使用 PAM 從該樣本中選擇類中心。
其思想是,如果樣本以相當隨機的方式選擇,那麼它會正確地代表整個資料集,因此,選擇的代表性物件(類中心)將類似於從整個資料集中選擇的。
CLARA 繪製多個樣本,並輸出這些樣本中良好的聚類。CLARA 可以處理比 PAM 更高的資料集。現在每次迭代的複雜度變為 O(kS2+k(n−k)),其中 S 是樣本的大小。
**CLARANS(基於隨機搜尋的大型應用程式聚類)** - CLARANS 演算法結合了 PAM 和 CLARA,透過僅搜尋資料集的子集來搜尋,並且在任何給定時間它都不會將其自身限制在某個樣本上。雖然 CLARA 在搜尋的每個階段都有一個恆定的樣本,但 CLARANS 在搜尋的每個階段都以一定的隨機性繪製樣本。
聚類階段可以表示為搜尋一個圖,其中每個節點都是一個可能的解決方案,即一組 k 個類中心。替換單個類中心後獲得的聚類稱為當前聚類的鄰居。
資料結構
網路
關係資料庫管理系統
作業系統
Java
iOS
HTML
CSS
Android
Python
C 語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP