資料探勘中的聚類型別有哪些?


聚類分析用於根據對這些記錄進行的各種度量形成相同記錄的組或聚類。它可以以有利於分析目標的方式定義聚類。此資料已用於多個領域,例如天文學、考古學、醫學、化學、教育、心理學、語言學和社會學。

以下是各種型別的聚類:

**良好分離的聚類** - 聚類是一組物件,其中每個元素都比叢集中某些非叢集物件更接近叢集中的其他每個元素。有時,閾值可以定義叢集中所有物件都應足夠接近(或相似)。只有當資料包含彼此完全遠離的自然聚類時,才需要此聚類描述。

**基於原型的聚類** - 聚類是一組物件,其中每個物件都比某些多個聚類的原型更接近表示該聚類的原型。對於具有連續屬性的資料,聚類的原型是質心,例如聚類中各個點的平均值(均值)。當質心不重要時,包括記錄具有分類屬性時,原型是中心點,例如聚類的典型點。

**基於圖的聚類** - 如果資料通常表示為圖,其中節點是物件,連結定義物件之間的連線,則聚類可以表示為連線的元件;即,相互連結的物件集,但與組外的物件沒有連線。

基於圖的聚類的重要示例是基於鄰近性的聚類,其中只有當兩個物件位於彼此指定的距離內時,它們才連結。這意味著基於鄰近性的聚類中的每個物件都比多個聚類中的某些點更接近聚類中的多個物件。

**基於密度的聚類方法** - 一些劃分技術根據物件之間的距離對物件進行聚類。這種方法只能發現球形聚類,並且在發現任意形狀的聚類時會遇到困難。已經根據密度概念生成了多種聚類方法。

DBSCAN 是一種常見的基於密度的聚類方法,它根據密度閾值增加聚類。OPTICS 是一種基於密度的聚類方法,它計算擴充套件的聚類排序以進行自動和互斥聚類分析。

**基於網格的聚類方法** - 基於網格的方法將物件空間量化到多個有限的單元格中,這些單元格形成網格結構。在網格結構(即量化空間)上實現了幾種聚類服務。

這種方法的優點是其快速的處理時間,這通常與多個數據物件無關,而僅基於量化空間中每個維度中的多個單元格。

更新於:2022年2月14日

587 次瀏覽

啟動您的職業生涯

透過完成課程獲得認證

開始學習
廣告