資料探勘過程
從海量資料集中提取可用於分析併為組織帶來益處的資料的過程。資料探勘過程通常包括以下步驟:
業務理解
業務理解和客戶目標是必要的。需要定義客戶的需求,然後根據場景定義資料探勘目標。
資料理解
從不同來源收集資料並進行探索,以瞭解資料的屬性和特徵。
資料準備
收集到的資料現在被選擇、清理、轉換、預處理和構建,以便使其準備好進行分析。此過程佔據了專案的大部分時間。
建模
使用數學模型和演算法獲取資料。建模技術或模型由利益相關者評估,以用於資料集以獲取結果資料。
評估
評估識別出的結果或模式,以檢查其是否符合業務目標。
部署
建立部署計劃並生成報告,以幫助改進業務決策。
資料探勘過程
陳述問題並制定假設
在本部分中,從一個組中獲取問題並應用初始假設。資料探勘專家和應用專家之間進行了深入的交流以制定假設,並且在整個資料探勘過程中持續進行。
資料收集
此步驟負責如何從各種來源收集資料。資料收集有兩種場景。第一種是專家控制資料生成過程,該過程設計良好且易於理解。第二種是專家無法影響資料生成過程,並使用觀察方法隨機生成資料。在某些情況下,資料收集程式隱含的取樣分佈部分或未知。為了在最終結果中利用估計模型,有必要了解資料收集如何與其分佈相矛盾,因為資料將用於建模,最終結果的解釋和估計模型。
資料預處理
在此過程中,原始資料被轉換為可理解的格式,並準備好進行進一步分析。目的是提高資料質量並使其達到特定任務的要求。
它通常至少包含兩個任務:
異常值檢測和去除
異常值是非特異性資料,不能用於觀察。它包含錯誤和異常值,可能損害模型。可以透過檢測和去除異常值或使用對異常值不敏感的穩健建模來處理它。
縮放和編碼
使用變數縮放和編碼,我們需要對其進行縮放並傳達等效權重,這有助於分析。特定於應用程式的編碼透過實現降維來提供更少的資訊。
估計模型
此階段有助於選擇最合適的 資料探勘技術。首先在不同的模型上進行實現,然後選擇最簡單的模型進行進一步處理。
解釋模型並得出結論
簡單的模型是可解釋的,但準確性較低。新一代資料探勘模型有望透過使用高維模型提供高精度。一些特定的技術用於透過解釋這些模型來驗證結果。
結論
本文包含資料探勘過程,包括業務理解、資料理解、資料準備、建模、評估和部署等步驟。資料探勘過程包括 5 個部分。首先是陳述問題並制定假設,其中獲取問題並應用假設。其次是資料收集,它有助於從不同來源收集資料。第三是資料預處理,它透過使用異常值檢測/去除、縮放和編碼將資料轉換為可理解的形式。第四是估計模型,它有助於選擇合適的簡單模型進行分析。第五是解釋模型並得出結論,它指的是使用模型進行解釋並得出結論,從而提供高精度。