機器學習 - 基於密度的聚類



基於密度的聚類是基於這樣一個想法:聚類是高密度區域,由低密度區域隔開。

  • 該演算法首先識別“核心”資料點,這些資料點是在指定距離內具有最小鄰居數的資料點。這些核心資料點形成了一個聚類的中心。

  • 接下來,該演算法識別“邊界”資料點,這些資料點不是核心資料點,但至少有一個核心資料點作為鄰居。

  • 最後,該演算法識別“噪聲”資料點,這些資料點既不是核心資料點也不是邊界資料點。

流行的基於密度的聚類演算法

以下是最常見的基於密度的聚類演算法:

DBSCAN 聚類

DBSCAN(具有噪聲的應用的空間聚類密度基礎)演算法是最常見的基於密度的聚類演算法之一。DBSCAN 演算法需要兩個引數:最小鄰居數 (minPts) 和核心資料點之間的最大距離 (eps)。

OPTICS 聚類

OPTICS(排序點以識別聚類結構)是一種基於密度的聚類演算法,它透過構建資料集的可達性圖來執行。可達性圖是有向圖,它將每個資料點與其在指定距離閾值內的最近鄰居連線起來。可達性圖中的邊根據連線的資料點之間的距離加權。然後,該演算法透過根據指定的密度閾值遞迴地將可達性圖拆分為聚類來構建層次聚類結構。

HDBSCAN 聚類

HDBSCAN(具有噪聲的應用的空間聚類密度基礎的層次)是一種基於密度聚類的聚類演算法。它是一種較新的演算法,建立在流行的 DBSCAN 演算法之上,並提供了幾個優點,例如更好地處理不同密度的聚類以及檢測不同形狀和大小的聚類的能力。

在接下來的三章中,我們將詳細討論所有三種基於密度的聚類演算法,以及它們在 Python 中的實現。

廣告