模式挖掘的應用有哪些?
模式挖掘有各種各樣的應用,如下所示:
模式挖掘通常用作多個數據密集型應用中預處理的噪聲過濾和資料清理。例如,它可用於探索微陣列資料,其中包含數萬個維度(例如,描述基因)。
模式挖掘有助於發現隱藏在資料中的內在機制和聚類。例如,給定 DBLP 資料集,頻繁模式挖掘可以簡單地發現有趣的聚類,例如合著者聚類(透過確定通常合作的作者)和會議聚類(透過確定多個作者和術語的共享)。這種架構或聚類發現可用作其他複雜資料探勘的預處理。
頻繁模式可有效用於高維空間的子空間聚類。在高維空間中,聚類比較困難,因為兩個物件之間的距離難以衡量。這是因為這種距離受物件所佔據的多個維度集所支配。
模式分析有利於時空資訊、時間序列資料、影像資料、影片資料和多媒體資料的分析。時空資料分析的一個應用是共位模式分析。這些可以幫助確定特定疾病是否與特定物件(如井、醫院或河流)在地域上共位。
在時間序列資料分析中,研究人員已將時間序列值離散化為多個區間,因此可以忽略小的波動和值差異。資料可以總結為順序模式,這些模式可以被索引以簡化相似性搜尋或比較分析。
在影像分析和模式識別中,研究人員還將經常出現的視覺片段有序地作為視覺詞,可用於有效的聚類、分類和比較分析。
模式挖掘已用於分析包括樹、圖、子序列和網路在內的序列或結構化資料。在軟體工程中,研究人員已將程式碼執行中的連續或間隙子序列作為順序模式,以支援識別軟體錯誤。
大型軟體程式中的複製貼上錯誤可以透過原始碼的擴充套件順序模式分析來識別。剽竊的軟體程式可以根據其基本相同的程式流程/迴圈機制來識別。
頻繁和判別模式可用作原始索引機制(稱為圖索引)以提供搜尋大型、複雜、結構化資料集和網路。這些提供了圖結構化資料(包括化學化合物資料庫或 XML 結構化資料庫)中的相似性搜尋。此類模式可用於資料壓縮和描述。