資料探勘 - 聚類分析



聚類是一組屬於同一類的物件。換句話說,相似的物件被分組到一個聚類中,而不同的物件被分組到另一個聚類中。

什麼是聚類?

聚類是將一組抽象物件劃分為相似物件類的過程。

要點

  • 一組資料物件可以作為一個組來處理。

  • 在進行聚類分析時,我們首先根據資料相似性將資料集劃分為組,然後為這些組分配標籤。

  • 與分類相比,聚類分析的主要優勢在於它能夠適應變化,並有助於挑選出區分不同組的有用特徵。

聚類分析的應用

  • 聚類分析廣泛應用於許多應用中,例如市場研究、模式識別、資料分析和影像處理。

  • 聚類還可以幫助營銷人員發現其客戶群中的不同群體。並且他們可以根據購買模式來描述其客戶群體。

  • 在生物學領域,它可以用於推導植物和動物分類,對具有相似功能的基因進行分類,並深入瞭解群體固有的結構。

  • 聚類還有助於識別地球觀測資料庫中相似土地利用的區域。它還有助於根據房屋型別、價值和地理位置識別城市中房屋的群體。

  • 聚類還有助於對網路上的文件進行分類以進行資訊發現。

  • 聚類也用於異常值檢測應用,例如信用卡欺詐檢測。

  • 作為一種資料探勘功能,聚類分析可作為一種工具來深入瞭解資料的分佈,以觀察每個聚類的特徵。

資料探勘中聚類的需求

以下幾點闡明瞭為什麼資料探勘中需要聚類:

  • 可擴充套件性 - 我們需要高度可擴充套件的聚類演算法來處理大型資料庫。

  • 能夠處理不同型別的屬性 - 演算法應該能夠應用於任何型別的資料,例如基於區間的(數值)資料、分類資料和二元資料。

  • 發現具有屬性形狀的聚類 - 聚類演算法應該能夠檢測任意形狀的聚類。它們不應僅限於傾向於找到小尺寸球形聚類的距離度量。

  • 高維性 - 聚類演算法不僅應該能夠處理低維資料,還應該能夠處理高維空間。

  • 能夠處理噪聲資料 - 資料庫包含噪聲、缺失或錯誤資料。某些演算法對這種資料敏感,可能導致聚類質量差。

  • 可解釋性 - 聚類結果應該是可解釋的、易於理解的和可用的。

聚類方法

聚類方法可以分為以下幾類:

  • 劃分方法
  • 層次方法
  • 基於密度的聚類方法
  • 基於網格的方法
  • 基於模型的方法
  • 基於約束的方法

劃分方法

假設我們得到了一個包含“n”個物件的資料庫,劃分方法構建了資料的“k”個劃分。每個劃分都代表一個聚類,並且k ≤ n。這意味著它會將資料分類為k組,這些組滿足以下要求:

  • 每個組至少包含一個物件。

  • 每個物件必須恰好屬於一個組。

要點:

  • 對於給定的劃分數量(例如k),劃分方法將建立一個初始劃分。

  • 然後,它使用迭代重定位技術透過將物件從一個組移動到另一個組來改進劃分。

層次方法

此方法建立給定資料集物件的層次分解。我們可以根據層次分解的形成方式對層次方法進行分類。這裡有兩種方法:

  • 凝聚方法
  • 分裂方法

凝聚方法

這種方法也稱為自下而上的方法。在這裡,我們從每個物件形成一個單獨的組開始。它不斷合併彼此接近的物件或組。它不斷這樣做,直到所有組合併為一個,或者直到終止條件成立。

分裂方法

這種方法也稱為自上而下的方法。在這裡,我們從所有物件都在同一個聚類中開始。在連續迭代中,一個聚類被分裂成更小的聚類。它一直持續到每個物件都在一個聚類中,或者直到終止條件成立。此方法是剛性的,即一旦合併或拆分完成,就無法撤消。

改進層次聚類質量的方法

以下是用於提高層次聚類質量的兩種方法:

  • 對每個層次劃分中的物件連結進行仔細分析。

  • 透過首先使用層次凝聚演算法將物件分組到微聚類中,然後對微聚類執行宏聚類來整合層次凝聚。

基於密度的聚類方法

此方法基於密度的概念。基本思想是隻要鄰域中的密度超過某個閾值,就繼續擴充套件給定的聚類,即對於給定聚類中的每個資料點,給定聚類的半徑必須至少包含最少的點數。

基於網格的方法

在此方法中,物件共同形成一個網格。物件空間被量化為形成網格結構的有限數量的單元格。

優點

  • 此方法的主要優點是處理速度快。

  • 它僅取決於量化空間中每個維度中的單元格數量。

基於模型的方法

在此方法中,為每個聚類假設一個模型以找到給定模型資料的最佳擬合。此方法透過對密度函式進行聚類來定位聚類。它反映了資料點的空間分佈。

此方法還提供了一種根據標準統計自動確定聚類數量的方法,同時考慮異常值或噪聲。因此,它產生了穩健的聚類方法。

基於約束的方法

在此方法中,透過合併使用者或應用程式導向的約束來執行聚類。約束是指使用者期望或所需聚類結果的屬性。約束為我們提供了一種與聚類過程互動式通訊的方式。約束可以由使用者或應用程式需求指定。

廣告