資料探勘中的聚類型別有哪些?
聚類有多種型別,如下所示:
層次聚類與劃分聚類 - 幾種聚類型別之間的區別在於聚類集是巢狀的還是非巢狀的,或者用流行的術語來說,是層次的還是劃分的。劃分聚類是將一組資料物件劃分為不重疊的子集(聚類),其中每個資料物件都恰好屬於一個子集。
它允許聚類具有子聚類,因此需要層次聚類,它是一組巢狀的聚類,被組織成樹狀結構。樹中的每個節點(聚類)(除了葉節點)都是其子節點(子聚類)的並集,樹的根是包含所有物件的聚類。
互斥聚類、重疊聚類與模糊聚類 - 聚類通常是互斥的,因為它們將每個物件分配到一個單獨的聚類。存在一個點可以位於多個聚類中的情況,這些情況最好由非互斥聚類來處理。
在這種方法中,重疊或非互斥聚類可以遵循這樣一個事實,即一個物件可以屬於多個組(類)。例如,大學裡的人既可以是註冊的學生,也可以是大學的員工。
在模糊聚類中,每個物件都以一個介於 0(絕對不屬於)和 1(絕對屬於)之間的隸屬度權重應用於每個聚類。換句話說,聚類被認為是模糊集。
完全聚類與部分聚類 - 完全聚類將每個物件分配到一個聚類,而部分聚類則不會。部分聚類的原因是資料集中的某些物件可能不屬於明確的組。資料集中的某些物件可以定義為噪聲、異常值或“不感興趣的背景”。例如,一些新聞報道可能共享一個共同的主題,例如全球變暖,而其他報道則更通用或獨一無二。
因此,為了發現上個月新聞報道中的重要主題,只需要搜尋那些不太可能由共同主題連線的文件聚類。在某些情況下,需要對所有物件進行聚類。例如,需要聚類來組織檔案以進行瀏覽的應用程式需要確保所有檔案都可以被瀏覽。
廣告