k-medoids演算法在大資料集上的效率如何?


像PAM這樣的經典k-medoids劃分演算法在小型資料集上效率很高,但在大資料集上卻難以擴充套件。對於較大的資料集,可以使用一種基於取樣的方法,稱為CLARA(Clustering Large Applications)。

CLARA背後的方法如下:如果樣本以相當隨機的方式選擇,它必須緊密地定義原始資料集。選擇的代表性物件(medoids)將類似於從整個資料集選擇的那些物件。CLARA從資料集中抽取多個樣本,對每個樣本應用PAM,並將其最佳聚類作為輸出返回。

CLARA的效能基於樣本大小。觀察到PAM在一個給定資料集之間搜尋最佳k個medoids,而CLARA搜尋所選資料集樣本之間的最佳k個medoids。提出了一種稱為CLARANS(Clustering Large Applications depends upon RANdomized Search)的k-medoids型別演算法。它可以將取樣方法與PAM連線起來。雖然CLARA在搜尋的每個階段都有一個固定的樣本,但CLARANS在搜尋的每個階段都會以一定的隨機性抽取樣本。

聚類過程可以看作是對圖的搜尋,其中每個節點都是一個可能的解(一組k個medoids)。如果它們的集合只相差一個物件,則兩個節點是相鄰的(特別是,由圖中的弧連線)。每個節點都可以分配一個成本,該成本由每個物件與其簇的medoid之間的總差異表示。

在每一步中,PAM確定其在搜尋最小成本解時最新節點的所有鄰居。然後,最新節點將被具有最大成本下降的鄰居替換。因為CLARA操作的是整個資料集的樣本,所以它確定的鄰居較少,並將搜尋限制在比初始圖更小的子圖。

實驗表明,CLARANS比PAM和CLARA都更有效率。它可以使用輪廓係數(定義物件真正應用於聚類的程度的物件屬性)來發現最“自然”的聚類數量。CLARANS還允許發現異常值。

CLARANS的計算複雜度為O(n2),其中n是物件的個數。此外,其聚類質量基於所使用的取樣方法。透過關注探索空間資料結構(包括R*-樹)的方法,可以進一步提高CLARANS處理駐留在磁碟上的資料物件的能力。

更新於:2021年11月24日

447 次瀏覽

啟動您的職業生涯

透過完成課程獲得認證

開始
廣告
© . All rights reserved.