資料探勘多維關聯規則
關聯規則挖掘幫助我們找到大型資料集中的關係。
在多維關聯中,
多維關聯規則包含多個方面。
數值屬性應該離散化。
屬性可以是無量綱的或定量的。
定量特徵是數值型的,幷包含等級。
挖掘多維關聯規則的三種方法是:
使用定量屬性的靜態離散化
離散化發生在挖掘之前,是靜態的。離散化屬性被視為絕對的,並使用稱為Apriori演算法的演算法來搜尋所有k頻繁謂詞集(需要k或k+1次表掃描)。頻繁謂詞集的每個子集都應該是連續的。資料立方體最適合挖掘,因為它們有助於加速挖掘。謂詞單元與n維資料立方體的單元相關。
示例:在一個數據立方體中,3D立方體(id,名稱,類別)是頻繁的,那麼它表明(id,名稱)、(名稱,類別)、(id,類別)也是頻繁的。
使用定量屬性的動態離散化
它也被稱為挖掘定量關聯規則,數值屬性被動態離散化。
示例
age(A,"12..25")Λrank(A,"1..4")Λgets(A,"laptop computer")
輸出
排名1 |
排名2 |
排名3 |
排名4 |
|
---|---|---|---|---|
年齡,22-25 |
||||
年齡,18-21 |
||||
年齡,12-17 |
在這裡,屬性被分類到區間中,並且基於資料的分佈。這些區間可以進一步組合進行分析,因此離散化是動態的。
元組網格
基於距離的聚類離散化
這是一個動態的離散化過程,它考慮了感興趣資料之間的距離。
挖掘過程涉及兩個步驟。
透過執行聚類來找到所涉及屬性的區間。
透過搜尋一起出現的叢集組來獲取關聯規則。
注意:規則前件和後件中的叢集是強相關的,並且一起出現。
結論
本文介紹了使用多維關聯規則進行資料探勘,這有助於找到資料集之間的關係,然後使用不同的方法(離散化)進行挖掘。第一種方法是使用靜態離散化,它使用Apriori演算法來定位謂詞集。第二種是動態離散化,它有助於對數值屬性進行動態離散化。第三種是基於距離的離散化,它測量資料點之間的距離。
廣告