關聯模式的評估是什麼?


關聯分析演算法有可能生成大量的模式。例如,儘管資料集僅包含六個專案,但在特定支援度和置信度閾值下,它可以建立多達數千條關聯規則。由於實際貨幣資料庫的大小和維數可能很大,因此它們很容易最終產生數千甚至數百萬個模式,其中一些可能不有趣。

透過模式識別最有趣的模式是項非平凡的任務,因為一個人的垃圾可能是另一個人的寶藏。建立一套公認的方法來計算關聯模式的質量至關重要。

第一套標準可以透過統計論證來建立。包含一組相互獨立的專案或涵蓋多個事務的模式被視為無趣,因為它們可能會在資料中產生虛假的關聯。

可以使用客觀趣味性部分來刪除此類模式,該部分使用從資料中派生的統計資料來確定模式是否有趣。客觀趣味性度量的示例,例如支援度、置信度和相關性。

第二套標準可以透過主觀論證來建立。除非模式承認有關資料意想不到的資料或支援可能導致有利服務的知識,否則該模式被視為主觀上無趣。

例如,規則{黃油}→{麵包}可能並不有趣,無論其支援度和置信度值有多高,因為規則定義的關係看起來相當明顯。

另一方面,規則{尿布}→{啤酒}很有趣,因為這種關係是出乎意料的,並且可以為零售商提供新的交叉銷售機會。將主觀知識納入模式計算是一項複雜的任務,因為它需要大量來自領域專家的先前資料。

以下是將偏置知識納入模式發現任務的幾種方法,如下所示:

視覺化 - 這種方法需要一個使用者友好的環境來保持人工使用者參與迴圈。它還使領域專家能夠透過執行和測試發現的模式來連線到資料探勘系統。

基於模板的方法 - 這種方法使使用者能夠約束挖掘演算法複製的模式型別。與其記錄所有提取的規則,不如只將需要使用者指定模板的規則恢復給使用者。

主觀趣味性度量 - 可以根據包括概念層次結構或元素增益限制在內的領域知識來表示主觀度量。該度量可用於過濾可訪問且不可操作的模式。

更新時間: 2022年2月11日

1K+ 次檢視

啟動您的 職業生涯

透過完成課程獲得認證

開始
廣告