連結挖掘的挑戰是什麼?


連結挖掘面臨著一些挑戰,如下所示:

  • 邏輯依賴與統計依賴——圖連結結構中存在兩種型別的依賴關係:(表示物件之間邏輯關係的)邏輯依賴和(表示統計關係的)機率依賴,例如物件屬性之間的相關性,這些物件通常在邏輯上是相關的。

    對這些依賴關係進行一致的處理也是多關係資料探勘的一個挑戰,其中要挖掘的資料存在於多個表中。它應該搜尋物件之間若干可能的邏輯關係,此外還要搜尋屬性之間機率依賴的標準搜尋。這需要一個巨大的搜尋空間,這使得找到一個合理的數學模型更加複雜。這裡可以應用歸納邏輯程式設計中發展的方法,這些方法側重於對邏輯關係的搜尋。

  • 特徵構建——在基於連結的分類中,它可以考慮物件的屬性以及與其連線的物件的屬性。此外,連結也可以具有屬性。特徵構建的目標是構建一個定義這些屬性的單一特徵。這可以包含特徵選擇和特徵聚合。在特徵選擇中,只包含最具區分性的特徵。

  • 例項與類別——這指的是模型是否明確地指代個體或個體的類別(一般類別)。前一種模型的優點是它可以用來將特定個體與高機率聯絡起來。後一種模型的優點是它可以用來推廣到新的情況,包括多個個體。

  • 有效利用標記資料和未標記資料——學習中的一個近期策略是結合標記資料和未標記資料的混合。未標記資料可以幫助推斷物件屬性分佈。未標記(測試)資料之間的連結允許我們使用連結物件的屬性。標記(訓練)資料和未標記(測試)資料之間的連結會產生依賴關係,這有助於建立更準確的推斷。

  • 連結預測——連結預測中的一個挑戰是,物件之間特定連結的先驗機率通常極低。已經提出了各種連結預測方法,這些方法基於分析網路中節點鄰近性的幾種度量。也提出了機率模型。對於大型資料集,在更高層次上對連結建模可能更有效。

  • 封閉世界假設與開放世界假設——大多數傳統方法假設我們知道領域中所有潛在的實體。這種“封閉世界”假設在現實世界應用中是不現實的。這方面的工作包括引入一種語言來定義關係結構上的機率分佈,其中包含多個物件集。

更新於:2021年11月25日

瀏覽量:532

開啟你的職業生涯

透過完成課程獲得認證

開始學習
廣告