什麼是最大頻繁項集？

資料探勘資料庫資料結構

最大頻繁項集是指其任何直接超集都不是頻繁項集的頻繁項集。格中的項集被分成兩組：頻繁項集和非頻繁項集。頻繁項集邊界由虛線表示。

邊界上方的每個項集都是頻繁的，而邊界下方的項集（陰影節點）是非頻繁的。在靠近邊界的項集之間，{a, d}、{a, c, e}和{b, c, d, e}被認為是最大頻繁項集，因為它們的直接超集是非頻繁的。

包含{a, d}的項集是最大頻繁項集，因為其一些直接超集{a, b, d}、{a, c, d}和{a, d, e}是非頻繁的。相反，{a, c}不是最大頻繁項集，因為其直接超集{a, c, e}是頻繁的。

最大頻繁項集足以支援對頻繁項集的緊湊描述。換句話說，它們構成最小的項集集合，從中可以匯出一些頻繁項集。例如，頻繁項集可以分成如下兩組：

以項a開頭的頻繁項集，可能包含項c、d或e。此組包含包含{a}、{a, c}、{a, d}、{a, e}和{a, c, e}的項集。
以項b、c、d或e開頭的頻繁項集。此組包含包含{b}、{b, c}、{c, d}、{b, c, d, e}等的項集。

第一組中的頻繁項集是{a, c, e}或{a, d}的子集，而第二組中的頻繁項集是{b, c, d, e}的子集。因此，最大頻繁項集{a, c, e}、{a, d}和{b, c, d, e}支援對頻繁項集的緊湊描述。

對於可能產生非常高頻繁項集的資料集，最大頻繁項集支援有價值的描述，因為此類資料中存在指數級的頻繁項集。只有當存在一種有效的演算法能夠顯式地發現最大頻繁項集而無需列舉所有子集時，這種方法才是實用的。

儘管支援緊湊描述，但最大頻繁項集不包含其子集的支援資料。例如，最大頻繁項集{a, c, e}、{a, d}和{b, c, d, e}的支援度並不能提供對其子集支援度的任何資訊。

需要對資料集進行額外的一遍掃描來確定非最大頻繁項集的支援計數。在某些情況下，可能需要對保留支援資料的頻繁項集進行最小描述。

Ginni

更新於：2022年2月11日

3K+ 次瀏覽

開啟你的職業生涯

完成課程獲得認證

廣告

© . All rights reserved.