什麼是元組 ID 傳播?
元組 ID 傳播是一種實現虛擬連線的方法,它極大地提高了多關係分類的效率。它不是物理地連線關係,而是透過將目標元組的 ID 連線到非目標關係中的元組來虛擬地組合它們。
在這種方法中,可以像實現物理連線一樣計算謂詞。元組 ID 傳播靈活且高效,因為 ID 可以簡單地在兩個關係之間傳播,只需要少量的資料傳輸和更多的儲存空間。透過這樣做,可以減少冗餘計算,從而計算多個關係中的謂詞。
元組 ID 傳播必須遵守特定的約束。在兩種情況下,這種傳播可能會適得其反:
透過大型扇出傳播
透過長而弱的連結傳播。
第一種情況出現在將 ID 傳播到關係 R 後,發現 R 中的每個元組都與某些目標元組連線,並且每個目標元組都與 R 中的某些元組連線。由於連線是非選擇性的,因此 R 和目標關係之間的語義連線非常弱。
例如,通過出生國連結在人員之間進行傳播可能不會有效。第二種情況出現在傳播經過很長的連線時(例如,將學生與其汽車經銷商的寵物連線起來可能不會有效)。為了提高效率和確定性,不建議透過這種連線進行傳播。
CrossMine 是一種需要元組 ID 傳播進行多關係分類的方法。它可以更好地結合 ID 傳播的資料,CrossMine 需要複雜的謂詞作為規則的組成部分。一個複雜的謂詞 p 包括以下兩個部分:
prop-path - 這表示如何傳播 ID。例如,路徑“Loan.account_ID → Account.account_ID”表示使用 account_ID 將 ID 從 Loan 傳播到 Account。如果未包含 ID 傳播,則 prop-path 為 null。
約束 - 這是一個謂詞,表示對傳播 ID 的關係的約束。它可以是分類的或數值的。
CrossMine 構造一個分類器,其中包含一組規則,每個規則包含一組複雜的謂詞和一個類標籤。CrossMine 是一種類似於 FOIL 的順序覆蓋演算法。它可以一次構造一條規則。構造規則 r 後,滿足 r 的所有正目標元組都將從資料集中刪除。
CrossMine 定期搜尋最佳複雜謂詞並將其新增到當前規則中,直到滿足停止條件。如果關係出現在當前規則中,則該關係處於活動狀態。在搜尋下一個最佳謂詞之前,需要每個活動關係對它的每個元組具有傳播 ID 的 ID 集。