如何從高維資料中找到子空間聚類?
已經有多種方法被歸類為三大類,包括子空間搜尋技術、基於相關性的聚類技術和雙聚類技術。
子空間搜尋技術 - 子空間搜尋方法在多個子空間中搜索聚類。因此,聚類是在子空間中彼此相同的物件的子集。相似性是透過傳統的度量獲得的,包括距離或密度。
例如,CLIQUE演算法是一種子空間聚類技術。它可以在維度遞增的序列中指定子空間和這些子空間中的聚類,並使用反單調性來修剪其中不可能繼續存在聚類的子空間。子空間搜尋技術面臨的一個更大的挑戰是如何有效地搜尋子空間序列。
有兩種方法如下:
自底向上方法從低維子空間開始,只有當這些高維子空間中可能存在聚類時才搜尋高維子空間。已經分析了幾種修剪方法來減少需要搜尋的多個高維子空間。CLIQUE 是自底向上方法的一個例子。
自頂向下方法從完整空間開始,遞迴地搜尋越來越小的子空間。只有在區域性性假設的影響下,自頂向下方法才有效,這需要聚類的子空間可以透過區域性鄰域來確定。
基於相關性的聚類方法 - 子空間搜尋方法搜尋使用傳統度量(如距離或密度)計算的相似性聚類,而基於相關性的方法可以找到由高階相關模型表示的聚類。
基於PCA的方法首先使用PCA(主成分分析)來改變一組新的、不相關的維度,然後在新的空間或其子空間中挖掘聚類。此外,還可以使用PCA以外的其他空間變換,包括霍夫變換或分形維數。
雙聚類方法 - 在某些應用中,需要同時對物件和屬性進行聚類。生成的聚類稱為雙聚類,並滿足以下四個要求:
只有一個小的物件組在一個聚類中。
一個聚類只包含少量屬性。
一個物件可以參與多個聚類,也可以不參與任何聚類。
一個屬性可以包含在多個聚類中,也可以不包含在任何聚類中。
雙聚類技術最初是為了解決探索基因表達資料的要求而推薦的。基因是生物體將其性狀傳遞給後代的系統。通常,基因由一段DNA組成。
基因對所有生物至關重要,因為它們決定某些蛋白質和功能性RNA鏈。它們影響構建和維持活生物體細胞的資料,並將遺傳性狀傳遞給後代。
基因型是細胞、生物體或個體的遺傳構成。表型是有機體的可見特徵。基因表達是遺傳學中基因型導致表型的重要水平。
資料結構
網路
關係型資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP