挖掘負模式的技術有哪些?


第一類用於挖掘不頻繁模式的技術將每個專案視為對稱二元變數。事務資訊可以透過新增負專案來二值化。它顯示了一個將初始資料更改為包含正負專案的交易的例項。透過使用當前的頻繁項集生成演算法(包括 Apriori)在增廣的事務上,可以匯出一些負項集。

這種方法只有在將多個變數視為對稱二元變數時才有可能(即,它用於包含少量專案否定形式的負模式)。如果每個專案都應被視為對稱二元變數,則由於以下原因,問題在計算上變得很困難。

當每個專案與其相應的負專案一起增加時,多個專案會加倍。而不是探索大小為 2d 的項集格(其中 d 是初始資料集中專案的數量),格變得更高。

當增加負專案時,基於支援的剪枝不再有效。對於每個變數 x,x 或 x 提供了高於或等於 50% 的值。因此,即使支援閾值高達 50%,一半的專案也將頻繁出現。

對於較低的閾值,包含它們的多個專案和可能的項集將頻繁出現。Apriori 使用的支援性剪枝方法僅在大多數項集的支援度較低時才有效;因此,各種頻繁項集呈指數增長。

當增加負專案時,每個事務的寬度都會提高。假設初始資料集中有 d 個專案可用。對於包括購物籃交易在內的稀疏資料集,每個事務的寬度影響遠小於 d。

因此,受最大事務寬度 wmax 限制的頻繁項集的最大大小影響與關聯性較小。當包含負專案時,事務的寬度增加到 d,因為專案存在於事務中或不存在於事務中,但不能同時存在。

由於最大事務寬度已從 wmax 增加到 d,這將導致大量頻繁項集的數量迅速變化。因此,某些當前演算法在用於較長資料集時往往會崩潰。

先前的蠻力方法在計算上代價高昂,因為它迫使我們確定大量正負模式的支援度。另一種方法不是用負專案來增強資料集,而是根據其相關正專案的支援度來確定負項集的支援度。

更新於: 2022-02-14

257 次瀏覽

開啟您的 職業生涯

透過完成課程獲得認證

開始
廣告