什麼是 PROCLUS?
PROCLUS 代表 Projected Clustering(投影聚類)。它是一種常用的降維子空間聚類技術。也就是說,它不是從單個維度空間開始,而是首先在高維屬性空間中找到聚類的原始近似值。
每個維度都會為每個聚類建立一個權重,並且在下一輪迭代中使用更新後的權重來重新建立聚類。這導致了在某些方便維度的所有子空間中探索密集區域,並防止在較低維度的投影維度中生成大量重疊的聚類。
PROCLUS 透過類似於 CLARANS 中使用的爬山階段來發現最佳類中心組,但它被推廣以處理投影聚類。它採用了一種稱為曼哈頓分段距離的距離度量,它是對一組適當維度的曼哈頓距離。
PROCLUS 演算法包括三個過程:初始化、迭代和聚類細化。在初始化過程中,它需要一個貪婪演算法來選擇一組彼此距離較遠的原始類中心,以便確保每個聚類都由選定集中至少一個物件定義。
它可以選擇與需要生成的多個聚類成比例的資料點隨機樣本,然後使用貪婪演算法獲得更小的最終子集用於後續過程。
迭代過程從這個縮小的(類中心)集中隨機選擇一組 k 個類中心,如果聚類得到改進,則用隨機選擇的新的類中心替換“不良”類中心。
對於每個類中心,都會選擇一組維度,其平均距離與數學期望相比較小。與類中心相關的維度總數應為 k×l,其中 l 是一個輸入引數,用於選擇聚類子區域的平均維數。
細化過程根據發現的聚類計算每個類中心的新的維度,將點重新分配到類中心,並刪除異常值。PROCLUS 表明該方法在發現高維聚類方面是有效且可擴充套件的。
與輸出許多重疊聚類的 CLIQUE 不同,PROCLUS 查詢點的非重疊分割槽。發現的聚類可以更好地理解高維資料,並支援其他後續分析。
CLIQUE 必須發現最大維度的子空間,以便高密度聚類在這些子空間中繼續存在。它對輸入物件的順序沒有反應,也不假設某些規範的資料分佈。它隨著輸入大小線性擴充套件,並且隨著資料中維度的增加具有最佳可擴充套件性。
資料結構
網路
關係型資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP