分割槽演算法有哪些型別?


分割槽演算法主要有兩種型別,如下所示:

K 均值聚類 - K 均值聚類是最常見的劃分演算法。K 均值將資料集中的每個資料重新分配到新形成的聚類中的一個。使用距離或相似性度量將記錄或資料點分配到最近的聚類。K 均值聚類使用以下步驟:

  • 可以選擇 K 個初始聚類中心 c1、c2、c3 ... ck

  • 可以將 S 集中的每個例項 x 分配到其中心最接近 x 的聚類。

  • 對於每個聚類,根據該聚類中包含的元素重新計算其中心。

  • 轉到 (b) 直到收斂完成。

  • 可以將物件(資料點)分成 K 個聚類。

  • 它用於聚類中心(質心)=聚類中所有資料點的平均值。

  • 可以將每個點分配到其中心最近的聚類(使用距離函式)。

均值的初始值是任意分配的。這些可以隨機分配,或者可能使用前 k 個輸入項本身的值。收斂元素可以基於平方誤差,但它們不需要是。例如,該演算法被分配到不同的聚類。其他終止技術只是鎖定在固定數量的迭代中。可以包含最大迭代次數以確保即使沒有收斂也能停止。

演算法

輸入

D = {t1t2 ... tn} // Set of elements
k // Number of desired clusters

輸出

K // Set of clusters

K 均值演算法 -

為均值分配初始值 m1m2... mk

重複

將每個專案 ti 分配到均值最近的聚類

計算每個聚類的新均值

直到滿足收斂條件

最近鄰演算法 - 一種類似於單鏈接技術的演算法稱為最近鄰演算法。使用此序列演算法,專案被迭代地組合到當前最接近的聚類中。在此演算法中,閾值 t 可以確定專案是插入現有聚類還是生成新聚類。

演算法

輸入

D = {t1t2 ... tn} // Set of elements
A // Adjacency matrix showing distance between elements

輸出

K // Set of clusters
Nearest neighbour algorithm
   K1 = {t1};
   K = {K1};
   k = 1;
   for i = 2 to n do
      find the tm in some cluster Km in K such that dis {ti, tm} is the smallest;
      If dis {ti, tm} $\leqslant$ t then
      Km = Km $\cup$ ti
else
k = k + 1;
Kk = {ti}

更新於: 2022 年 2 月 15 日

6K+ 次檢視

啟動您的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.