什麼是序列模式挖掘?


序列模式挖掘是指挖掘頻繁出現的系列事件或子序列作為模式。例如,購買佳能數碼相機的使用者在一個月內購買惠普彩色印表機的行為就是一個序列模式的例項。

對於零售資訊,序列模式有利於貨架擺放和促銷。這個行業,以及電信和其他企業,也可以利用序列模式進行目標營銷、使用者留存和各種任務。

序列模式可以應用於多個領域,例如Web訪問模式分析、天氣預報、生產過程和Web入侵檢測。

給定一組序列,其中每個序列包含一系列事件(或元素),每個事件包含一組專案,並給定使用者指定的最小支援度閾值min_sup,序列模式挖掘將發現所有頻繁子序列,即在序列組中出現頻率不低於min_sup的子序列。

設I = {I1, I2,..., Ip} 為所有專案的集合。項集是專案的非空集合。序列是事件的有序序列。序列s表示為{e1, e2, e3 … el},其中事件e1出現在e2之前,e2出現在e3之前,等等。事件ej也稱為s的元素。

對於使用者購買資訊,一個事件定義了一次購物之旅,顧客在特定商店購買商品。事件是一個項集,即顧客在旅途中購買的商品的無序列表。項集(或事件)表示為(x1x2···xq),其中xk是一個專案。

一個專案在一個序列的事件中只能出現一次,但可以在序列的不同事件中多次出現。序列中專案的多次出現稱為序列的長度。長度為l的序列稱為l-序列。

序列資料庫S是一組元組(SID, s),其中SID是序列ID,s是一個序列。例如,S包含商店所有使用者的序列。如果α是s的子序列,則元組(SID, s)包含序列α。

序列模式挖掘的這一階段是對使用者購物序列分析的抽象。在此類記錄上進行序列模式挖掘的可擴充套件技術如下:

本階段無法涵蓋序列模式挖掘的多個應用領域。例如,在分析Web點選流序列時,如果需要預測下一次點選的內容,點選之間的間隔就變得至關重要。

在DNA序列分析中,近似模式變得有用,因為DNA序列可能包含(符號)插入、刪除和突變。這種多樣化的需求可以被視為約束放鬆或應用。

更新於:2022年2月17日

12K+ 次瀏覽

啟動您的職業生涯

透過完成課程獲得認證

開始學習
廣告