機器學習 - 聚類演算法



聚類方法是最有用的無監督機器學習方法之一。這些方法用於查詢資料樣本之間的相似性和關係模式,然後根據特徵將這些樣本聚類到具有相似性的組中。聚類很重要,因為它確定了當前未標記資料中的內在分組。它們基本上對資料點做出一些假設來構成它們的相似性。每個假設都會構建不同的但同樣有效的聚類。

例如,下圖顯示了聚類系統將相似型別的資料分組到不同聚類中:

clustering system grouped

聚類形成方法

聚類不必以球形形式形成。以下是其他一些聚類形成方法:

  • 基於密度的 - 在這些方法中,聚類形成密集區域。這些方法的優點是它們具有良好的準確性和良好的合併兩個聚類的能力。例如,基於密度的噪聲應用空間聚類 (DBSCAN)、排序點以識別聚類結構 (OPTICS) 等。

  • 基於層次的 - 在這些方法中,聚類形成基於層次的樹狀結構。它們有兩個類別,即凝聚的(自下而上的方法)和分裂的(自上而下的方法)。例如,使用代表的聚類 (CURE)、基於層次的平衡迭代減少聚類 (BIRCH) 等。

  • 分割槽 - 在這些方法中,聚類透過將物件劃分為 k 個聚類來形成。聚類數將等於分割槽數。例如,K均值、基於隨機搜尋的大型應用程式聚類 (CLARANS)。

  • 網格 - 在這些方法中,聚類形成網格狀結構。這些方法的優點是所有在這些網格上完成的聚類操作都很快並且獨立於資料物件的數量。例如,統計資訊網格 (STING)、聚類查詢 (CLIQUE)。

聚類不必以球形形式形成。以下是其他一些聚類形成方法:

基於密度的

在這些方法中,聚類形成密集區域。這些方法的優點是它們具有良好的準確性和良好的合併兩個聚類的能力。例如,基於密度的噪聲應用空間聚類 (DBSCAN)、排序點以識別聚類結構 (OPTICS) 等。

基於層次的

在這些方法中,聚類形成基於層次的樹狀結構。它們有兩個類別,即凝聚的(自下而上的方法)和分裂的(自上而下的方法)。例如,使用代表的聚類 (CURE)、基於層次的平衡迭代減少聚類 (BIRCH) 等。

分割槽

在這些方法中,聚類透過將物件劃分為 k 個聚類來形成。聚類數將等於分割槽數。例如,K均值、基於隨機搜尋的大型應用程式聚類 (CLARANS)。

網格

在這些方法中,聚類形成網格狀結構。這些方法的優點是所有在這些網格上完成的聚類操作都很快並且獨立於資料物件的數量。例如,統計資訊網格 (STING)、聚類查詢 (CLIQUE)。

ML 聚類演算法的型別

以下是最重要的和有用的 ML 聚類演算法:

K均值聚類

此聚類演算法計算質心並迭代,直到找到最佳質心。它假設聚類數已知。它也稱為平面聚類演算法。演算法從資料中識別出的聚類數由 K 均值中的“K”表示。

均值漂移演算法

它是無監督學習中使用的另一種強大的聚類演算法。與 K 均值聚類不同,它不做出任何假設,因此它是一種非引數演算法。

層次聚類

它是另一種無監督學習演算法,用於將具有相似特徵的未標記資料點組合在一起。

我們將在接下來的章節中詳細討論所有這些演算法。

聚類的應用

我們可以在以下領域發現聚類很有用:

資料彙總和壓縮 - 聚類廣泛用於需要資料彙總、壓縮和減少的領域。例如,影像處理和向量量化。

協作系統和客戶細分 - 由於聚類可用於查詢類似的產品或相同型別的使用者,因此可用於協作系統和客戶細分領域。

作為其他資料探勘任務的關鍵中間步驟 - 聚類分析可以為分類、測試、假設生成生成資料的緊湊摘要;因此,它也作為其他資料探勘任務的關鍵中間步驟。

動態資料中的趨勢檢測 - 透過對類似趨勢進行各種聚類,聚類也可用於動態資料中的趨勢檢測。

社交網路分析 - 聚類可用於社交網路分析。例如,在影像、影片或音訊中生成序列。

生物資料分析 - 聚類也可用於對影像、影片進行聚類,因此可成功用於生物資料分析。

現在您已經瞭解了什麼是聚類以及它是如何工作的,讓我們在接下來的幾章中瞭解機器學習中使用的一些聚類演算法。

廣告