資料探勘 - 評估



資料倉庫

一個資料倉庫表現出以下特徵以支援管理層的決策過程:

  • **面向主題** - 資料倉庫面向主題,因為它提供圍繞某個主題的資訊,而不是組織的持續運營。這些主題可以是產品、客戶、供應商、銷售、收入等。資料倉庫不關注持續運營,而是關注資料的建模和分析以進行決策。

  • **整合** - 資料倉庫是透過整合來自異構源(如關係資料庫、平面檔案等)的資料構建的。這種整合增強了資料的有效分析。

  • **隨時間變化** - 資料倉庫中收集的資料與特定時間段相關聯。資料倉庫中的資料提供了從歷史角度來看的資訊。

  • **非易失性** - 非易失性意味著在新增新資料時不會刪除先前的資料。資料倉庫與操作資料庫分開,因此操作資料庫中的頻繁更改不會反映在資料倉庫中。

資料倉庫技術

資料倉庫技術是構建和使用資料倉庫的過程。資料倉庫是透過整合來自多個異構源的資料構建的。它支援分析報告、結構化和/或臨時查詢以及決策制定。

資料倉庫技術涉及資料清理、資料整合和資料整合。為了整合異構資料庫,我們有以下兩種方法:

  • 查詢驅動方法
  • 更新驅動方法

查詢驅動方法

這是整合異構資料庫的傳統方法。此方法用於在多個異構資料庫之上構建包裝器和整合器。這些整合器也稱為中介。

查詢驅動方法的過程

  • 當向客戶端發出查詢時,元資料字典會將查詢轉換為適合所涉及各個異構站點的查詢。

  • 現在這些查詢被對映併發送到本地查詢處理器。

  • 來自異構站點的結果被整合到一個全域性答案集中。

缺點

此方法具有以下缺點:

  • 查詢驅動方法需要複雜的整合和過濾過程。

  • 對於頻繁的查詢,它非常低效且非常昂貴。

  • 對於需要聚合的查詢,此方法成本很高。

更新驅動方法

如今的資料倉庫系統遵循更新驅動方法,而不是前面討論的傳統方法。在更新驅動方法中,來自多個異構源的資訊預先整合並存儲在倉庫中。此資訊可用於直接查詢和分析。

優點

此方法具有以下優點:

  • 此方法提供高效能。

  • 資料可以在語義資料儲存中預先複製、處理、整合、註釋、彙總和重組。

查詢處理不需要與本地源的處理進行介面。

從資料倉庫(OLAP)到資料探勘(OLAM)

聯機分析挖掘將聯機分析處理與多維資料庫中的資料探勘和挖掘知識相整合。以下是顯示OLAP和OLAM整合的圖表:

OLAP to OLAM

OLAM的重要性

OLAM 由於以下原因很重要:

  • **資料倉庫中高質量的資料** - 資料探勘工具需要在整合、一致和清理的資料上工作。這些步驟在資料預處理中非常昂貴。透過這種預處理構建的資料倉庫是用於OLAP和資料探勘的高質量資料的寶貴來源。

  • **圍繞資料倉庫的資訊處理基礎設施** - 資訊處理基礎設施是指訪問、整合、整合和轉換多個異構資料庫、網路訪問和服務設施、報告和OLAP分析工具。

  • **基於OLAP的探索性資料分析** - 有效的資料探勘需要探索性資料分析。OLAM 為在各種資料子集和不同抽象級別上進行資料探勘提供了便利。

  • **資料探勘功能的聯機選擇** - 將OLAP與多個數據挖掘功能和聯機分析挖掘相整合,使使用者能夠靈活地選擇所需的資料探勘功能並動態交換資料探勘任務。

廣告

© . All rights reserved.