資料倉庫和資料探勘
資料倉庫
資料倉庫是一套工具和技術的集合,利用這些工具和技術可以從大量資料中挖掘出更多知識。這有助於決策過程和改進資訊資源。
資料倉庫本質上是一個包含獨特資料結構的資料庫,它允許在大量資料上相對快速輕鬆地執行復雜查詢。它創建於多個異構資料來源。
資料倉庫的特徵
- 整合
- 隨時間變化
- 非易失性
資料倉庫的目的是支援決策過程。它使資訊易於訪問,因為我們可以從資料倉庫生成報表。它通常包含從事務資料派生的歷史資料,但也可能包含來自其他來源的資料。資料倉庫始終與事務資料分開。
我們有多個數據源,我們對它們應用 ETL 過程,在 ETL 過程中,我們從資料來源提取資料,然後根據某些規則對其進行轉換,然後將資料載入到所需的目的地,從而建立資料倉庫。
資料探勘
資料探勘是指從大量資料中提取知識。資料來源可以包括資料庫、資料倉庫、網路等。
知識發現是一個迭代序列
資料清洗 - 刪除不一致的資料。
資料整合 - 將多個數據源組合成一個。
資料選擇 - 選擇僅需要分析的相關資料。
資料轉換 - 將資料轉換為適合挖掘的格式。
資料探勘 - 用於提取資料模式的方法。
模式評估 - 識別資料中有趣的模式。
知識表示 - 使用視覺化和知識表示技術。
可以挖掘哪種資料?
- 資料庫資料
- 資料倉庫
- 事務資料
資料探勘的範圍
趨勢和行為的自動預測:資料探勘自動化了在大型資料庫中查詢預測資訊的過程。例如:考慮一家營銷公司。在這家公司中,資料探勘使用過去的促銷郵件來識別目標,以最大化回報。
以前未知模式的自動發現:資料探勘掃描資料庫並識別以前隱藏的模式。例如:在零售商店中,資料探勘將遍歷整個資料庫並找到通常一起購買的商品的模式。
廣告