資料探勘 - 問題



資料探勘並非易事,因為所使用的演算法可能非常複雜,而且資料並不總是集中在一個地方。它需要從各種異構資料來源進行整合。這些因素也產生了一些問題。在本教程中,我們將討論以下主要問題:

  • 挖掘方法和使用者互動
  • 效能問題
  • 多種資料型別問題

下圖描述了主要問題。

Data Mining issues

挖掘方法和使用者互動問題

它指的是以下幾種問題:

  • 挖掘資料庫中不同型別的知識 - 不同的使用者可能對不同型別的知識感興趣。因此,資料探勘必須涵蓋廣泛的知識發現任務。

  • 多層次抽象的互動式知識挖掘 - 資料探勘過程需要互動式,因為它允許使用者專注於模式搜尋,根據返回的結果提供和完善資料探勘請求。

  • 背景知識的融入 - 背景知識可以用來指導發現過程和表達發現的模式。背景知識不僅可以簡潔地表達發現的模式,還可以以多種抽象層次表達。

  • 資料探勘查詢語言和臨時資料探勘 - 允許使用者描述臨時挖掘任務的資料探勘查詢語言應該與資料倉庫查詢語言整合,並針對高效靈活的資料探勘進行最佳化。

  • 資料探勘結果的呈現和視覺化 - 一旦發現模式,就需要用高階語言和視覺化表示來表達。這些表示應該易於理解。

  • 處理噪聲或不完整資料 - 需要資料清洗方法來處理挖掘資料規律時遇到的噪聲和不完整物件。如果沒有資料清洗方法,則發現模式的準確性會很差。

  • 模式評估 - 發現的模式應該是有趣的,因為它們要麼代表常識,要麼缺乏新穎性。

效能問題

可能存在以下與效能相關的問題:

  • 資料探勘演算法的效率和可擴充套件性 - 為了有效地從資料庫中大量資料中提取資訊,資料探勘演算法必須高效且可擴充套件。

  • 並行、分散式和增量挖掘演算法 - 資料庫的巨大規模、資料的廣泛分佈以及資料探勘方法的複雜性等因素促進了並行和分散式資料探勘演算法的開發。這些演算法將資料劃分成多個分割槽,然後以並行方式處理。然後將來自各個分割槽的結果合併。增量演算法更新資料庫,而無需從頭開始再次挖掘資料。

多種資料型別問題

  • 處理關係型和複雜型別的資料 - 資料庫可能包含複雜資料物件、多媒體資料物件、空間資料、時間資料等。一個系統不可能挖掘所有這些型別的資料。

  • 從異構資料庫和全球資訊系統中挖掘資訊 - 資料存在於LAN或WAN上的不同資料來源中。這些資料來源可能是結構化的、半結構化的或非結構化的。因此,從中挖掘知識給資料探勘帶來了挑戰。

廣告