如何進一步提高基於Apriori演算法的挖掘效率？

有一些改進原始Apriori演算法效率的改進演算法版本，如下所示：

基於雜湊的技術（將項集雜湊到相應的桶中）——基於雜湊的技術可以用來減少候選k-項集C_k（k > 1）的大小。例如，在掃描資料庫中的每個事務以從C₁中的候選1-項集建立頻繁1-項集L₁時，可以為每個事務建立一些2-項集，將它們雜湊（即對映）到雜湊表結構的多個桶中，並增加相應的桶計數。

事務壓縮——不包含某些頻繁k-項集的事務不可能包含某些頻繁(k+1)-項集。因此，可以標記或刪除此類事務以避免進一步考慮，因為後續掃描資料庫以查詢j-項集（其中j > k）將不需要它。

分割槽——可以使用一種分割槽技術，只需要兩次資料庫掃描就可以挖掘頻繁項集。它包括兩個階段：在第一階段，演算法將D的事務細分為n個不相交的分割槽。如果D中事務的最小支援閾值為min_sup，則分割槽中最小支援計數為min_sup ×該分割槽中事務的數量。

對於每個分割槽，都會發現分割槽內的所有頻繁項集。這些被稱為區域性頻繁項集。該過程使用特定的資料結構，對於每個項集，記錄包含該項集中的項的事務的TID。這使得它能夠僅透過一次資料庫掃描就能找到所有區域性頻繁k-項集（k = 1, 2...）。

區域性頻繁項集可能與整個資料庫D頻繁相關，也可能不頻繁相關。任何可能與D頻繁相關的項集都必須作為頻繁項集出現在部分分割槽中。因此，所有區域性頻繁項集都是D的候選項集。來自所有分割槽頻繁項集的集合構成D的全域性候選項集。在第二階段，組織對D的第二次掃描，其中評估每個候選的支援度以確定全域性頻繁項集。

抽樣——抽樣方法的基本思想是從給定的資料D中選擇一個隨機樣本S，然後在S中而不是在D中搜索頻繁項集。在這種方法中，可以犧牲一定程度的準確性來換取效率。S的樣本大小使得可以在主記憶體中完成在S中搜索頻繁項集的操作，因此總體上只需要掃描S中事務一次。

Ginni

更新於：2021年11月24日

11K+ 次瀏覽

完成課程獲得認證