資料探勘 - 聚類分析

聚類是一組屬於同一類的物件。換句話說，相似的物件被分組到一個聚類中，而不同的物件被分組到另一個聚類中。

什麼是聚類？

聚類是將一組抽象物件劃分為相似物件類的過程。

要點

以下幾點闡明瞭為什麼資料探勘中需要聚類：

聚類方法可以分為以下幾類：

假設我們得到了一個包含“n”個物件的資料庫，劃分方法構建了資料的“k”個劃分。每個劃分都代表一個聚類，並且k ≤ n。這意味著它會將資料分類為k組，這些組滿足以下要求：

要點：

此方法建立給定資料集物件的層次分解。我們可以根據層次分解的形成方式對層次方法進行分類。這裡有兩種方法：

這種方法也稱為自下而上的方法。在這裡，我們從每個物件形成一個單獨的組開始。它不斷合併彼此接近的物件或組。它不斷這樣做，直到所有組合併為一個，或者直到終止條件成立。

這種方法也稱為自上而下的方法。在這裡，我們從所有物件都在同一個聚類中開始。在連續迭代中，一個聚類被分裂成更小的聚類。它一直持續到每個物件都在一個聚類中，或者直到終止條件成立。此方法是剛性的，即一旦合併或拆分完成，就無法撤消。

以下是用於提高層次聚類質量的兩種方法：

此方法基於密度的概念。基本思想是隻要鄰域中的密度超過某個閾值，就繼續擴充套件給定的聚類，即對於給定聚類中的每個資料點，給定聚類的半徑必須至少包含最少的點數。

在此方法中，物件共同形成一個網格。物件空間被量化為形成網格結構的有限數量的單元格。

優點

在此方法中，為每個聚類假設一個模型以找到給定模型資料的最佳擬合。此方法透過對密度函式進行聚類來定位聚類。它反映了資料點的空間分佈。

此方法還提供了一種根據標準統計自動確定聚類數量的方法，同時考慮異常值或噪聲。因此，它產生了穩健的聚類方法。

在此方法中，透過合併使用者或應用程式導向的約束來執行聚類。約束是指使用者期望或所需聚類結果的屬性。約束為我們提供了一種與聚類過程互動式通訊的方式。約束可以由使用者或應用程式需求指定。

列印頁面