資料探勘多維關聯規則


關聯規則挖掘幫助我們找到大型資料集中的關係。

在多維關聯中,

  • 多維關聯規則包含多個方面。

  • 數值屬性應該離散化。

  • 屬性可以是無量綱的或定量的。

  • 定量特徵是數值型的,幷包含等級。

挖掘多維關聯規則的三種方法是:

使用定量屬性的靜態離散化

離散化發生在挖掘之前,是靜態的。離散化屬性被視為絕對的,並使用稱為Apriori演算法的演算法來搜尋所有k頻繁謂詞集(需要k或k+1次表掃描)。頻繁謂詞集的每個子集都應該是連續的。資料立方體最適合挖掘,因為它們有助於加速挖掘。謂詞單元與n維資料立方體的單元相關。

示例:在一個數據立方體中,3D立方體(id,名稱,類別)是頻繁的,那麼它表明(id,名稱)、(名稱,類別)、(id,類別)也是頻繁的。

使用定量屬性的動態離散化

它也被稱為挖掘定量關聯規則,數值屬性被動態離散化。

示例

age(A,"12..25")Λrank(A,"1..4")Λgets(A,"laptop computer")

輸出

排名1

排名2

排名3

排名4

年齡,22-25

年齡,18-21

年齡,12-17

在這裡,屬性被分類到區間中,並且基於資料的分佈。這些區間可以進一步組合進行分析,因此離散化是動態的。

元組網格

基於距離的聚類離散化

這是一個動態的離散化過程,它考慮了感興趣資料之間的距離。

挖掘過程涉及兩個步驟。

  • 透過執行聚類來找到所涉及屬性的區間。

  • 透過搜尋一起出現的叢集組來獲取關聯規則。

注意:規則前件和後件中的叢集是強相關的,並且一起出現。

結論

本文介紹了使用多維關聯規則進行資料探勘,這有助於找到資料集之間的關係,然後使用不同的方法(離散化)進行挖掘。第一種方法是使用靜態離散化,它使用Apriori演算法來定位謂詞集。第二種是動態離散化,它有助於對數值屬性進行動態離散化。第三種是基於距離的離散化,它測量資料點之間的距離。

更新於:2023年8月22日

4K+ 次瀏覽

開啟您的職業生涯

透過完成課程獲得認證

開始學習
廣告