什麼是GSP?
GSP代表廣義序列模式。它是由Srikant和Agrawal在1996年提出的一種序列模式挖掘方法。它是他們用於普通項集挖掘的開創性演算法(稱為Apriori)的擴充套件。GSP需要序列模式的向下閉包性質,並採用多遍、生成-測試的方法。
該演算法如下。在資料庫的第一次掃描中,它可以發現一些頻繁項,即那些具有最小支援度的項。每個項都會產生一個包含該項的1-事件頻繁序列。每次後續掃描都以一組種子序列模式和之前掃描中找到的序列模式組開始。
這組種子可以建立新的潛在頻繁模式,稱為候選序列。每個候選序列都比建立它的種子序列模式多包含一個項(其中模式中的每個事件可以包含一個或多個項)。
序列中專案的多個例項是序列的高度。因此,給定掃描中的一些候選序列將具有相同的高度。它將長度為k的序列定義為k-序列。
令Ck表示候選k-序列的集合。對資料庫進行掃描可以發現每個候選k-序列的支援度。Ck中具有最小min_sup的候選構成Lk,即所有頻繁k-序列的集合。此集合成為下一遍(k+1)的種子集。當在某一掃描中沒有發現新的序列模式,或者無法建立任何候選序列時,演算法停止。
GSP使用Apriori屬性來縮短候選集,如下所示。在第k遍掃描中,一個序列只有在其所有長度為(k −1)的子序列都是(k −1)遍掃描中發現的序列模式時,才成為候選序列。
對資料庫進行新的掃描可以收集每個候選序列的支援度並發現一組新的序列模式,Lk。此集合成為下一遍掃描的種子。當在某一掃描中沒有發現序列模式或沒有建立任何候選序列時,演算法停止。
類似Apriori的序列模式挖掘技術(基於候選生成和測試)也可以透過將序列資料庫轉換為垂直資料格式來分析。在垂直資料格式中,資料庫轉換為一組形式為(項集:(序列ID,事件ID))的元組。
事件識別符號作為序列中的時間戳提供。序列中第i個項集(或事件)的event_ID為i。一個項集可以出現在多個序列中。給定項集組合的(序列ID,事件ID)集形成該項集的ID_list。
資料結構
網路
關係資料庫管理系統
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP