如何進一步提高基於Apriori演算法的挖掘效率?


有一些改進原始Apriori演算法效率的改進演算法版本,如下所示:

基於雜湊的技術(將項集雜湊到相應的桶中)——基於雜湊的技術可以用來減少候選k-項集Ck(k > 1)的大小。例如,在掃描資料庫中的每個事務以從C1中的候選1-項集建立頻繁1-項集L1時,可以為每個事務建立一些2-項集,將它們雜湊(即對映)到雜湊表結構的多個桶中,並增加相應的桶計數。

事務壓縮——不包含某些頻繁k-項集的事務不可能包含某些頻繁(k+1)-項集。因此,可以標記或刪除此類事務以避免進一步考慮,因為後續掃描資料庫以查詢j-項集(其中j > k)將不需要它。

分割槽——可以使用一種分割槽技術,只需要兩次資料庫掃描就可以挖掘頻繁項集。它包括兩個階段:在第一階段,演算法將D的事務細分為n個不相交的分割槽。如果D中事務的最小支援閾值為min_sup,則分割槽中最小支援計數為min_sup ×該分割槽中事務的數量。

對於每個分割槽,都會發現分割槽內的所有頻繁項集。這些被稱為區域性頻繁項集。該過程使用特定的資料結構,對於每個項集,記錄包含該項集中的項的事務的TID。這使得它能夠僅透過一次資料庫掃描就能找到所有區域性頻繁k-項集(k = 1, 2...)。

區域性頻繁項集可能與整個資料庫D頻繁相關,也可能不頻繁相關。任何可能與D頻繁相關的項集都必須作為頻繁項集出現在部分分割槽中。因此,所有區域性頻繁項集都是D的候選項集。來自所有分割槽頻繁項集的集合構成D的全域性候選項集。在第二階段,組織對D的第二次掃描,其中評估每個候選的支援度以確定全域性頻繁項集。

抽樣——抽樣方法的基本思想是從給定的資料D中選擇一個隨機樣本S,然後在S中而不是在D中搜索頻繁項集。在這種方法中,可以犧牲一定程度的準確性來換取效率。S的樣本大小使得可以在主記憶體中完成在S中搜索頻繁項集的操作,因此總體上只需要掃描S中事務一次。

更新於:2021年11月24日

11K+ 次瀏覽

開啟您的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.