資料探勘 - 主題



資料探勘的理論基礎

資料探勘的理論基礎包括以下概念:

  • 資料約簡 - 該理論的基本思想是減少資料表示,以準確性換取速度,以滿足對非常大的資料庫上的查詢快速獲得近似答案的需求。一些資料約簡技術如下:

    • 奇異值分解

    • 小波

    • 迴歸

    • 對數線性模型

    • 直方圖

    • 聚類

    • 抽樣

    • 索引樹的構建

  • 資料壓縮 - 該理論的基本思想是用以下方面對給定資料進行編碼壓縮:

    • 關聯規則

    • 決策樹

    • 叢集

  • 模式發現 - 該理論的基本思想是在資料庫中發現出現的模式。以下是一些有助於該理論的領域:

    • 機器學習

    • 神經網路

    • 關聯挖掘

    • 序列模式匹配

    • 聚類

  • 機率論 - 該理論基於統計理論。該理論背後的基本思想是發現隨機變數的聯合機率分佈。

  • 機率論 - 根據該理論,資料探勘發現的模式僅在可以用於某個企業的決策過程中時才有意義。

  • 微觀經濟學觀點 - 根據該理論,資料庫模式由儲存在資料庫中的資料和模式組成。因此,資料探勘是在資料庫上執行歸納的任務。

  • 歸納資料庫 - 除了面向資料庫的技術外,還有一些可用於資料分析的統計技術。這些技術也可以應用於科學資料以及經濟和社會科學中的資料。

統計資料挖掘

一些統計資料挖掘技術如下:

  • 迴歸 - 迴歸方法用於從一個或多個預測變數預測響應變數的值,其中變數為數值型。以下是迴歸的形式:

    • 線性

    • 多元

    • 加權

    • 多項式

    • 非引數

    • 穩健

  • 廣義線性模型 - 廣義線性模型包括:

    • 邏輯迴歸

    • 泊松迴歸

    模型的泛化允許以類似於使用線性迴歸對數值響應變數建模的方式將分類響應變數與一組預測變數相關聯。

  • 方差分析 - 此技術分析:

    • 用數值響應變數描述的兩個或多個總體實驗資料。

    • 一個或多個分類變數(因子)。

  • 混合效應模型 - 這些模型用於分析分組資料。這些模型描述了響應變數與根據一個或多個因素分組的資料中的一些協變數之間的關係。

  • 因子分析 - 因子分析用於預測分類響應變數。此方法假設自變數服從多元正態分佈。

  • 時間序列分析 - 分析時間序列資料的常用方法如下:

    • 自迴歸方法。

    • 單變數 ARIMA(自迴歸積分移動平均)建模。

    • 長記憶時間序列建模。

視覺化資料探勘

視覺化資料探勘使用資料和/或知識視覺化技術從大型資料集中發現隱式知識。視覺化資料探勘可以看作是以下學科的整合:

  • 資料視覺化

  • 資料探勘

視覺化資料探勘與以下內容密切相關:

  • 計算機圖形學

  • 多媒體系統

  • 人機互動

  • 模式識別

  • 高效能計算

通常,資料視覺化和資料探勘可以透過以下方式整合:

  • 資料視覺化 - 資料庫或資料倉庫中的資料可以以多種視覺形式檢視,如下所示:

    • 箱線圖

    • 3D 立方體

    • 資料分佈圖

    • 曲線

    • 曲面

    • 連結圖等。

  • 資料探勘結果視覺化 - 資料探勘結果視覺化是以視覺形式呈現資料探勘的結果。這些視覺形式可以是散點圖、箱線圖等。

  • 資料探勘過程視覺化 - 資料探勘過程視覺化呈現資料探勘的多個過程。它允許使用者檢視資料的提取方式。它還允許使用者檢視資料是從哪個資料庫或資料倉庫中清理、整合、預處理和挖掘的。

音訊資料探勘

音訊資料探勘利用音訊訊號來指示資料模式或資料探勘結果的特徵。透過將模式轉換為聲音和音樂,我們可以聆聽音調和曲調,而不是觀看圖片,以識別任何有趣的東西。

資料探勘與協同過濾

如今,消費者在購物時會遇到各種商品和服務。在即時客戶交易期間,推薦系統透過提供產品推薦來幫助消費者。協同過濾方法通常用於向客戶推薦產品。這些建議基於其他客戶的意見。

廣告

© . All rights reserved.