資料探勘面臨哪些挑戰?
資料探勘面臨著各種挑戰,如下所示:
資料探勘演算法的效率和可擴充套件性 - 它能夠有效地從資料庫中的大量資料中提取資料,知識發現演算法應該對大型資料庫具有高效性和可擴充套件性。具體來說,資料探勘演算法的執行時間應該在大型資料庫中是可預測的和可接受的。具有指數級甚至通道級多項式複雜度的演算法將無法有效使用。
資料探勘結果的有用性、確定性和表達性 - 識別出的知識應該準確地描述資料庫的內容,並對特定應用有用。不完善性必須透過不確定性的度量來定義,以近似規則或定量規則的形式表示。
噪聲和異常資料必須在資料探勘系統中得到優雅的處理。這也促使了對衡量發現知識質量(例如有趣性和可靠性)的系統化研究,方法是開發統計、分析和模擬模型和工具。
各種資料探勘結果的表達 - 可以從大量資料中發現多種知識。它還可以喜歡從多個角度檢查發現的知識,並以不同的形式顯示它們。
這需要我們用高階語言或圖形使用者介面來定義資料探勘請求和發現的知識,以便非專家可以定義資料探勘任務,使用者可以理解和精確地獲得發現的知識。這也需要發現系統選擇富有表現力的知識表示技術。
在多個抽象級別上互動式挖掘知識 - 因為很難預測從資料庫中可以準確地發現什麼,所以必須將高階資料探勘查詢視為可以揭示一些有趣線索以供進一步探索的探測。
必須鼓勵互動式發現,它使使用者能夠互動式地細化資料探勘請求、動態更改資料焦點、逐步加深資料探勘過程,以及靈活地在多個抽象級別和從多個角度檢視資訊和資料探勘結果。
從不同的資料來源挖掘資訊 - 廣泛可用的本地和廣域計算機網路,例如網際網路,可以連線各種資料來源並形成巨大的分散式異構資料庫。從具有不同資料語義的多種格式化或非格式化資訊源中挖掘知識對資料探勘提出了新的要求。
否則,資料探勘可以幫助揭示異構資料庫中的高階資料規律,而這些規律在簡單的查詢系統中幾乎無法發現。此外,資料庫的巨大規模、資料的廣泛分佈以及某些資料探勘方法的計算複雜性促進了並行和分散式資料探勘演算法的進步。
資料結構
網路
關係型資料庫管理系統
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP