如何從事務資料庫中挖掘多級關聯規則?


挖掘多級關聯規則的方法基於支援置信度框架。採用自頂向下的策略,其中在每個概念級別累積計數以計算頻繁項集,從概念級別 1 開始,向更低的特定概念級別工作,直到可以使用 Apriori 演算法找到更多頻繁項集。

可以透過用資料中較低級別的概念替換其更高級別的概念或概念層次結構中的祖先來概括資料。在概念層次結構中,它表示為一棵樹,其根為 D,即任務相關資料。

多級關聯的流行應用領域是市場籃子分析,它透過搜尋經常一起購買的專案集來研究客戶的購買習慣,這在概念層次結構的概念中顯示。

每個節點表示一個已檢查的專案或專案集。在任何抽象級別查詢頻繁項集都有各種方法。一些正在使用的方法是“對所有級別使用統一的最小支援”、“在較低級別使用減少的最小支援”、“逐級獨立”。

多級資料庫需要一個層次資料編碼的事務表,而不是初始事務表。當我們只對事務資料庫的一部分感興趣時,例如食物,而不是所有專案,這很有用。這樣,我們可以首先收集相關的資料集,然後重複處理任務相關的資料集。因此,在事務表中,每個專案都被編碼為一系列數字。

對所有級別使用統一的最小支援 - 當使用統一的最小支援閾值時,搜尋過程會得到簡化。可以採用一種最佳化技術,基於祖先與其後代的超集的知識,搜尋避免檢查包含任何其祖先沒有最小支援的專案的項集。

統一支援方法的主要缺點是較低抽象級別的專案出現的頻率與較高抽象級別的專案一樣頻繁。

在較低級別使用減少的最小支援 - 每個抽象級別都有其最小支援閾值。抽象級別越低,等效閾值越小。以下是在降低支援的情況下挖掘多級關聯的搜尋類別:

  • 逐級獨立 - 它是完全廣度優先搜尋,使用頻繁項集的背景知識進行剪枝。這裡檢查每個節點,而不管父節點是否被發現是頻繁的。

  • 單個專案逐級交叉過濾 - 僅當第 (i-1) 級的父節點頻繁時,才確定第 i 級的專案。

  • k-項集逐級交叉過濾 - 僅當第 (i-1) 級的等效父 A-項集頻繁時,才確定第 i 級的項集。

更新於: 2022 年 2 月 15 日

4K+ 次瀏覽

啟動你的 職業生涯

透過完成課程獲得認證

開始學習
廣告