從關係資料庫和資料倉庫中挖掘多維關聯規則是什麼?
關聯規則學習是一種無監督學習技術,它測試一個數據元素對另一個數據元素的依賴性並進行相應對映,以便使其更具商業價值。它試圖發現數據集變數之間的一些有趣的關係或關聯。它依賴於幾條規則來查詢資料庫中變數之間的有趣關係。
關聯規則學習是機器學習的基本概念,它被應用於市場籃分析、Web使用挖掘、持續生產等。因此,市場籃分析是許多大型零售商用來查詢專案之間關聯的方法。
在市場籃分析中,透過查詢客戶放入購物籃的不同商品之間的關聯來分析客戶的購買習慣。
透過發現這些關聯,零售商可以透過分析客戶通常購買哪些商品來制定營銷策略。這種關聯可以透過支援零售商進行選擇性營銷和規劃貨架區域來提高銷售額。
多級關聯的流行應用領域是市場籃分析,它透過搜尋經常一起購買的商品集來研究客戶的購買習慣,這在概念層次結構的概念中有所體現。
具有兩個或多個維度或謂詞的關聯規則可以稱為多維關聯規則。例如:
年齡 (X, "20...29") ^ 職業 (X,"學生") => 購買 (X,"筆記型電腦")
此規則包含三個謂詞(年齡、職業和購買),每個謂詞在規則中只出現一次,此類規則稱為跨維度關聯規則。具有重複謂詞或包含某些謂詞多次出現的規則稱為混合維度關聯規則。
例如:
年齡 (X, "20...29") ^ 購買 (X,"筆記型電腦") => 購買 (X,"印表機")
資料庫屬性應該是分類的或定量的。
分類屬性具有有限數量的可能值,這些值之間沒有順序,也稱為名義屬性。
定量屬性是數值型的,並且在值之間存在隱含的排序。關於定量屬性的處理,有三種基本方法:
第一種方法是在挖掘之前使用預定義的概念層次結構對定量屬性進行離散化。具有其範圍值的離散化數值屬性可以被視為分類屬性。
第二種方法是根據資料的分佈將定量屬性分類到區間中。這些區間可以在挖掘過程中進一步組合。因此,離散化過程是動態的和已建立的。
第三種方法是對定量屬性進行離散化以捕捉此類區間資料的語義含義。這種強大的離散化階段處理了資料點之間的距離。