什麼是KDD的過程?


KDD 代表資料庫中的知識發現。它定義了在資料中發現知識的廣泛過程,並強調了特定資料探勘技術的更高層次應用。它是多個領域研究人員感興趣的領域,例如人工智慧、機器學習、模式識別、資料庫、統計學、專業系統知識獲取和資料視覺化。

知識發現過程是迭代和互動式的,包括九個步驟。該過程在每個階段都是迭代的,這意味著可能需要轉換回之前的操作。該過程在某種意義上具有多種創造性的方法,因為人們無法為每個步驟和應用型別提供一個公式或建立正確的決策的完整科學分類。因此,需要了解該過程以及每個階段的多種需求和可能性。

  • 發展理解 - 這是基本的初步步驟。它為學習如何使用各種決策(如轉換、演算法、表示等)來建立場景。負責 KDD 專案的個人需要了解並描述終端使用者的目標以及知識發現過程將出現的環境(涉及相關的先前知識)。

  • 建立目標資料集 - 它可以選擇資料集或針對變數或資料樣本的子集,在其上實現發現。此過程至關重要,因為資料探勘從可訪問的資料中學習和查詢。這是構建模型的證據基礎。如果缺少一些重要的屬性,那麼從這個角度來看,整個研究可能會失敗,考慮的屬性越多越好。

  • 資料清理和預處理 - 資料清理定義為透過填充缺失值、平滑噪聲資料、識別和消除異常值以及消除資料中的不一致性來清理資料。

  • 探索性分析和模型與假設選擇 - 它可以選擇要用於搜尋資料模式的資料探勘演算法和方法。此過程包括確定哪些模型和引數可能是合適的,並將特定資料探勘方法與 KDD 過程的長期標準相匹配。

  • 資料探勘 - 用於以特定的表示形式或一組此類表示形式搜尋感興趣的模式,包括分類規則或樹、迴歸和聚類。使用者可以透過正確地執行前面的步驟來顯著幫助資料探勘方法。

  • 對發現的知識採取行動 - 直接使用知識,將知識整合到另一個系統中以進行其他操作,或者簡單地記錄它並將其報告給相關方。此過程還包括檢查並解決與先前接受(或提取)的知識的潛在衝突。

更新於: 2021年11月24日

899 次檢視

開啟你的 職業生涯

透過完成課程獲得認證

開始
廣告

© . All rights reserved.