資料探勘的基本概念是什麼?


資料探勘是從儲存在儲存庫中的海量資料中提取有用的新關聯、模式和趨勢的過程,使用包括統計和數學技術在內的模式識別技術。它是對事實資料集的分析,以發現意想不到的關係,並以對資料所有者來說既合乎邏輯又有幫助的新方法總結記錄。

資料探勘有各種概念,如下所示:

分類 - 分類是發現表示和區分資料類或概念的模型的過程,目的是能夠使用該模型來預測類標籤未知的物件的類。派生的模型基於對一組訓練記錄(即類標籤已知的物件)的分析。

預測 - 預測與分類相同,只是對於預測,結果被誤傳到未來。

商業和研究中預測函式的示例包括:

  • 它可以預測股票在未來三個月內的價值。

  • 它可以預測如果提高限速,明年交通事故死亡人數的百分比增長。

  • 它可以根據團隊統計資料的對應關係預測今年秋季棒球世界大賽的獲勝者。

  • 可以預測藥物發現中某個特定分子是否會為製藥公司啟動一種經濟高效的新藥。

關聯規則和推薦系統 - 關聯規則或親和性分析旨在在大資料庫中查詢專案之間此類一般的關聯模式。這些規則可以在多種方法中使用。例如,雜貨店可以使用此類資訊進行產品擺放。

他們可以使用這些規則進行每週促銷活動或捆綁產品。從醫院資料庫中提取的關於患者連續住院期間症狀的關聯規則可以幫助找出“哪些症狀之後會出現哪些其他症狀”,從而幫助預測回訪患者的未來症狀。

資料歸約 - 資料探勘用於在海量資料庫中選擇資料。當對大量記錄完成資料分析和挖掘時,處理需要非常長的時間,這使得它變得不可能和不可行。

它可以減少資料分析的處理時間,資料歸約技術用於獲得資料集的簡化表示,該表示在體積上要小得多,同時保持原始資料的完整性。透過減少資料,提高了資料探勘過程的效率,從而產生相同的分析結果。

資料歸約旨在更簡潔地定義它。當資料量較小時,更容易使用成熟且計算成本高的演算法。資料的減少可以是行(記錄)數量方面,也可以是列(維度)數量方面。

更新於: 2022年2月10日

5K+ 瀏覽量

開啟您的 職業生涯

透過完成課程獲得認證

開始學習
廣告