機器學習 - 基於質心的聚類



基於質心的聚類是一類機器學習演算法,其目標是根據資料點到每個聚類質心的接近程度將資料集劃分為組或聚類。

聚類的質心是該聚類中所有資料點的算術平均值,並作為該聚類的代表點。

兩種最流行的基於質心的聚類演算法是:

K均值聚類

K均值聚類是一種流行的用於資料聚類的無監督機器學習演算法。它是一種簡單高效的演算法,可以根據資料的相似性將資料點分組到K個聚類中。該演算法首先隨機選擇K個質心,它們是每個聚類的初始中心。然後,每個資料點都被分配到其質心與其最接近的聚類。然後透過取聚類中所有資料點的平均值來更新質心。重複此過程,直到質心不再移動或達到最大迭代次數。

K中心點聚類

K中心點聚類是一種基於劃分的聚類演算法,用於將一組資料點聚類到“k”個聚類中。與使用資料點的平均值來表示聚類中心的K均值聚類不同,K中心點聚類使用一個代表性資料點(稱為中心點)來表示聚類中心。中心點是使它與聚類中所有其他資料點之間的距離之和最小化的資料點。這使得K中心點聚類比K均值聚類更能抵抗異常值和噪聲。

我們將在接下來的兩章中討論這兩種聚類方法。

廣告