什麼是多關係聚類?


多關係聚類是基於資料物件之間的相似性,利用多個關係中的資訊,將資料物件劃分成一組聚類的過程。在本節中,它將介紹 CrossClus(具有使用者指導的跨關係聚類),這是一種多關係聚類演算法,它探討了如何在聚類中利用使用者指導和元組 ID 傳播來避免物理連線。

多關係聚類的一個主要挑戰是不同關係中存在過多的屬性,通常只有一小部分屬性與特定的聚類任務相關。

考慮計算機科學系資料庫。它可以用來對學生進行聚類,屬性涵蓋許多不同方面的資訊,例如學生所修課程、學生的出版物、學生的導師和研究小組等等。

使用者通常只對使用某些方面的資訊對學生進行聚類感興趣(例如,按研究領域對學生進行聚類)。使用者通常對其應用程式的要求和資料語義有很好的理解。因此,使用者可以在簡單的查詢結構中進行管理,並可以用來提高高維多關係聚類的效率和質量。

CrossClus 接受包含目標關係和一個或多個相關屬性的使用者查詢,這些屬性共同指定使用者的聚類目標。CrossClus 定義多關係屬性。多關係屬性 A’ 由連線路徑 Rt ⋈ R1 … . ⋈ Rk 和 Rk 的屬性 A,以及可能的聚合運算子(例如,平均值、計數、最大值)定義。

A’ 正式表示為 [A’. 連線路徑, A’ .attr, A’ .aggr],其中 A’. aggr 是可選的。多關係屬性 A’ 或者是分類特徵,或者是數值特徵,這取決於 Rk. A 是分類特徵還是數值特徵。如果 A’ 是分類特徵,則對於目標元組 t,t. A’ 表示與 t 可連線的 Rk 中元組的值分佈。

在多關係聚類過程中,CrossClus 需要跨多個關係搜尋相關屬性。CrossClus 必須解決搜尋過程中的兩個主要挑戰。首先,目標關係 Rt 通常可以透過許多不同的連線路徑與每個非目標關係 R 連線,並且 R 中的每個屬性都可以用作多關係屬性。

在這個巨大的搜尋空間中,不可能進行任何形式的窮舉搜尋。其次,在大量的屬性中,有些屬性與使用者查詢相關(例如,學生的導師與她的研究領域相關),而許多其他屬性則無關(例如,學生的同學的個人資訊)。

更新於:2021年11月25日

449 次瀏覽

啟動你的職業生涯

透過完成課程獲得認證

開始學習
廣告