資料倉庫和資料探勘


資料倉庫

資料倉庫是一套工具和技術的集合,利用這些工具和技術可以從大量資料中挖掘出更多知識。這有助於決策過程和改進資訊資源。

資料倉庫本質上是一個包含獨特資料結構的資料庫,它允許在大量資料上相對快速輕鬆地執行復雜查詢。它創建於多個異構資料來源。

資料倉庫的特徵

  • 整合
  • 隨時間變化
  • 非易失性

資料倉庫的目的是支援決策過程。它使資訊易於訪問,因為我們可以從資料倉庫生成報表。它通常包含從事務資料派生的歷史資料,但也可能包含來自其他來源的資料。資料倉庫始終與事務資料分開。

我們有多個數據源,我們對它們應用 ETL 過程,在 ETL 過程中,我們從資料來源提取資料,然後根據某些規則對其進行轉換,然後將資料載入到所需的目的地,從而建立資料倉庫。

資料探勘

資料探勘是指從大量資料中提取知識。資料來源可以包括資料庫、資料倉庫、網路等。

知識發現是一個迭代序列

  • 資料清洗 - 刪除不一致的資料。

  • 資料整合 - 將多個數據源組合成一個。

  • 資料選擇 - 選擇僅需要分析的相關資料。

  • 資料轉換 - 將資料轉換為適合挖掘的格式。

  • 資料探勘 - 用於提取資料模式的方法。

  • 模式評估 - 識別資料中有趣的模式。

  • 知識表示 - 使用視覺化和知識表示技術。

可以挖掘哪種資料?

  • 資料庫資料
  • 資料倉庫
  • 事務資料

資料探勘的範圍

  • 趨勢和行為的自動預測:資料探勘自動化了在大型資料庫中查詢預測資訊的過程。例如:考慮一家營銷公司。在這家公司中,資料探勘使用過去的促銷郵件來識別目標,以最大化回報。

  • 以前未知模式的自動發現:資料探勘掃描資料庫並識別以前隱藏的模式。例如:在零售商店中,資料探勘將遍歷整個資料庫並找到通常一起購買的商品的模式。

更新於: 2020年6月19日

8K+ 瀏覽量

開啟您的 職業生涯

透過完成課程獲得認證

開始學習
廣告