基於支援期望的技術有哪些?


有兩種方法可以確定模式的預期支援,一種是使用(概念層次結構),另一種是基於鄰域的方法,稱為間接關聯。

基於概念層次結構的支援期望

僅依靠客觀指標不足以去除無趣的非頻繁模式。例如,考慮麵包和筆記型電腦是頻繁項。即使專案集 {麵包,筆記型電腦} 不頻繁且可能負相關,它也不令人感興趣,因為其缺乏支援對於領域專家來說是顯而易見的。因此,需要一種主觀方法來確定預期支援,以防止生成此類非頻繁模式。

基於間接關聯的支援期望

考慮一對商品 (a, b),它們被客戶一起購買的頻率很高。如果 a 和 b 是不相關的商品,例如麵包和 DVD 播放器,那麼它們的預期支援度就會很低。換句話說,如果 a 和 b 是相關的商品,那麼它們的預期支援度就會很高。預期支援以前是利用概念層次結構計算的。這展示了一種透過檢視其他商品通常與這兩個商品一起購買來確定商品對之間預期支援的方法。

例如,考慮購買睡袋的客戶也傾向於購買其他露營用品,而購買臺式電腦的客戶也傾向於購買其他電腦配件,包括光學滑鼠或印表機。考慮到沒有其他商品與睡袋和臺式電腦一起頻繁購買,因此這些不相關商品的支援度應該很低。

換句話說,假設薯片和餅乾與節食汽水和普通汽水一起購買。即使不使用概念層次結構,這兩對商品也預計具有適度的關聯性,並且它們的支撐度應該很高。由於它們的實際支援度很低,因此節食汽水和普通汽水形成了一個有趣的非頻繁模式。此類模式稱為間接關聯模式。

間接關聯有很多應用,例如在市場購物籃領域,a 和 b 可以定義競爭商品,例如臺式電腦和筆記型電腦。在文字挖掘中,間接關聯可用於識別同義詞、反義詞或在多種上下文中使用的詞語。例如,給定一組檔案,單詞“資料”可以透過中介挖掘間接地與“黃金”相關聯。

更新日期: 2022年2月14日

93 次瀏覽

開啟你的職業生涯

透過完成課程獲得認證

立即開始
廣告