什麼是概念聚類?
概念聚類是機器學習中的一種聚類形式,它在給定一組未標記物件的情況下,對這些物件進行分類設計。與傳統的聚類(通常識別相似物件的組)不同,概念聚類更進一步,還發現了每個組的特徵定義,其中每個組定義一個概念或類別。
因此,概念聚類是一個兩步過程——首先實現聚類,然後進行特徵描述。因此,聚類質量不僅僅是單個物件的函式。大多數概念聚類技術採用統計方法,在決定概念或聚類時使用機率測量。
機率描述通常用於定義每個派生概念。COBWEB 是一種著名的、簡單的增量概念聚類方法。其輸入物件由分類屬性-值對定義。COBWEB 以分類樹的形式進行層次聚類。
分類樹與決策樹不同。分類樹中的每個節點都定義一個概念,幷包含該概念的機率描述,該描述總結了在節點下分類的物件。機率描述包含概念的機率和條件機率的形式為 $P(A_{i}=v_{ij}|C_{k})$ 是一個屬性-值對(第 i 個屬性取其第 j 個可能的值),而 Ck 是概念類。
COBWEB 使用一種稱為類別效用的啟發式評估度量來指導樹的構建。類別效用 (CU) 定義為
$$\frac{\sum_{k=1}^{n}P(C_{k})\left [\sum_{i}\sum_{j}P(A_{i}=v_{ij}|C_{k})^{2}-\sum_{i}\sum_{j}P(A_{i}=v_{ij})^{2}\right ]}{n}$$
其中 n 是在樹的給定級別形成分割槽的節點、概念或“類別”的數量,{C1,C2,..., Cn}。換句話說,類別效用是在給定分割槽的情況下可以完美猜測的屬性值的預期數量的增加(其中此預期數量對應於項 $P(C_{k})\sum_{i}\sum_{j}P(A_{i}=v_{ij}|C_{k})^{2}$ 超過在沒有此類知識的情況下正確猜測的預期數量(對應於項 $\sum_{i}\sum_{j}P(A_{i}=v_{ij})^{2}$ 。雖然沒有空間展示推導過程,但類別效用獎勵類內相似性和類間差異,其中——
類內相似性——它是機率 $P(A_{i}=v_{ij}|C_{k})$。此值越高,共享此屬性-值對的類成員的比例越高,並且該對對於類成員的可預測性越高。
類間差異——它是機率 $P(C_{k}|A_{i}=v_{ij})$。此值越高,在對比類中共享此屬性-值對的物件越少,並且該對對於類的預測性越高。
COBWEB 沿著合適的路徑下降樹,沿途重新整理計數,以尋找定義物件的“最佳主機”或節點。此決定取決於將物件暫時放置在每個節點中並評估所得分割槽的類別效用。導致最高類別效用的放置應該是物件的最佳主機。
資料結構
網路
關係資料庫管理系統
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP