將資料探勘視為知識發現過程,它都包含哪些步驟?
KDD代表資料庫中的知識發現 (Knowledge Discovery in Databases)。它定義了在資料中發現知識的廣泛過程,並強調了特定資料探勘技術的頂層應用。它是許多領域研究人員感興趣的領域,例如人工智慧、機器學習、模式識別、資料庫、統計學、專業系統的知識獲取以及資料視覺化。
KDD過程的主要目標是從大型資料庫環境中的資訊中提取資料。它透過利用資料探勘演算法來識別被認為是知識的內容來實現這一點。
資料庫中的知識發現被視為對大型資料儲存庫進行程式化、探索性分析和建模。KDD是從大型且複雜的資料集中識別有效、有用和易於理解的設計的有組織的過程。
資料探勘是KDD過程的根本,例如推斷用於調查記錄、開發模型和發現以前未知模式的演算法。該模型用於從資訊中提取知識、分析資訊和預測資訊。
資料探勘是KDD過程中的一個步驟,它包括應用資料分析和發現演算法,這些演算法在可接受的計算效率限制下,對資料進行特定模式(或模型)的列舉。
KDD過程包括使用資料庫以及對其進行一些必要的選擇、預處理、子取樣和轉換;使用資料探勘方法(演算法)從中列舉模式;以及計算資料探勘的產品以識別被認為是知識的列舉模式的子集。
知識發現過程涉及的步驟如下:
- **選擇** - 從各種來源收集資料探勘過程所需的資料。因此,第一步是選擇資料集或關注要實施發現的變數或資料樣本的子集。
- **資料清洗和預處理** - 該過程中使用的資料可能包含缺失值或不正確的值,因此基本操作包括去除噪聲、收集建模或解釋噪聲所需的資訊、確定處理缺失資料欄位的技術以及解釋時間序列資訊,這些都包含在KDD過程的第二步中。
- **資料轉換** - 此步驟包括根據任務目標查詢有用的特徵來表示資料。透過降維或轉換方法,可以減少所考慮變數的有效數量,或者可以發現數據的invariant表示。
- **資料探勘** - 基於正在執行的資料探勘任務,此步驟將演算法應用於轉換後的資料,搜尋特定表示形式或一組特定表示(包括分類規則或樹、迴歸和聚類)中的感興趣模式。
- **解釋挖掘出的模式** - 此步驟還可以涉及對提取的模式和模型的視覺化,或對提取模型中給出的資料的視覺化。
廣告
資料結構
網路
關係資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP