什麼是半監督聚類分析?
半監督聚類是一種透過利用領域知識對未標記資料進行劃分的方法。它通常表示為例項之間的成對約束,或者僅僅表示為一組額外的標記例項。
使用一些弱監督結構(例如,以成對約束的形式(即標記為屬於相似或不同聚類的物件對))可以從本質上提高無監督聚類的質量。這種依賴於使用者反饋或指導約束的聚類過程被稱為半監督聚類。
半監督聚類有幾種方法,可以分為以下兩類:
基於約束的半監督聚類 - 它可以基於使用者提供的標籤或約束來支援演算法朝著更合適的資料分割槽方向發展。這包括根據約束脩改目標函式,或根據標記物件初始化和約束聚類過程。
基於距離的半監督聚類 - 它可以用來採用適應性距離度量,該度量被訓練以滿足監督資料中的標籤或約束。已經使用了多種自適應距離度量,包括使用期望最大化(EM)訓練的字串編輯距離,以及由最短距離演算法更改的歐氏距離。
一種有趣的聚類方法,稱為 CLTree(基於決策樹的聚類)。它將無監督聚類與監督分類的概念相結合。它是基於約束的半監督聚類的例項。它透過將要聚類的點集視為屬於一個類(標記為“Y”)來將聚類任務轉換為分類任務,並插入一組分佈相對均勻的“不存在點”,並使用多個類標籤“N”。
然後,將資料區域劃分為資料(密集)區域和空(稀疏)區域的問題可以轉換為分類問題。這些點可以被認為是一組“Y”點。它顯示了新增一組均勻分佈的“N”點,由“o”點定義。
因此,原始的聚類問題被轉換為分類問題,該問題計算出區分“Y”和“N”點的設計。可以使用決策樹歸納法來劃分二維空間。識別出兩個聚類,它們僅來自“Y”點。
它可以用來將大量的“N”點插入到原始資料中,這會在計算中引入不必要的開銷。此外,新增的一些點不太可能在非常高維的空間中真正均勻分佈,因為這可能需要指數數量的點。
廣告
資料結構
網路
關係型資料庫管理系統
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP