為什麼挖掘頻繁項集的任務很難?


資料探勘是從儲存在儲存庫中的大量記錄中提取有用的新關聯、模式和趨勢的過程,它使用包括統計和數值技術在內的模式識別技術。它是對事實資料集的分析,以發現意想不到的關係,並以對資料所有者既合乎邏輯又有所幫助的新方法總結記錄。

它是選擇、探索和建模大量資訊以查詢最初未知的規律或關係以獲得對資料庫所有者清晰且有益的結果的過程。

資料探勘類似於資料科學。它由一個人在特定情況下對特定資料集進行,並具有特定目標。此階段包含多種型別的功能,包括文字挖掘、網路挖掘、音訊和影片挖掘、描述性資料探勘和社交媒體挖掘。它透過簡單或非常具體的軟體完成。

透過外包資料探勘,所有工作都可以更快地完成,並且運營成本更低。特定公司還可以使用新技術來儲存手動難以找到的資料。多個平臺上有大量資料可用,但可訪問的知識非常有限。

主要挑戰在於分析資料以提取可用於解決問題或用於公司發展的重要資料。有許多動態工具和技術可用於挖掘資料並從中發現更好的判斷。

挖掘頻繁項集的任務之所以複雜,是因為由於多維空間中資訊的稀疏性,難以在低階或原始的抽象方法中找到資料項之間的強關聯。

強關聯是在高概念層次上發現的,可以代表常識,但對一個使用者來說可以代表常識的東西,對另一個使用者來說可能看起來是新的。因此,需要資料探勘提供在多個抽象級別挖掘關聯規則並簡單地在多個抽象空間之間傳遞的可能性。

挖掘頻繁項集之所以困難,原因如下:

  • 生成關聯規則所需的計算量隨著項數和所考慮規則的複雜性的增加呈指數增長。

  • 除了一個標識特徵(包括產品型別)之外,項被認為是相同的。並非所有問題都符合此描述。

  • 最困難的任務是確定分析中要使用的正確項集。透過概括項,可以確保分析中使用的項的頻率大致相同。

  • 當在很少的事務中很少出現的項時,很難生成關聯規則。

更新於:2022年2月15日

239 次瀏覽

開啟你的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.