資料探勘 - 任務



資料探勘處理可以挖掘的模式型別。根據要挖掘的資料型別,資料探勘中涉及兩種功能類別:

  • 描述性
  • 分類與預測

描述性功能

描述性功能處理資料庫中資料的通用屬性。以下是描述性功能的列表:

  • 類/概念描述
  • 頻繁模式挖掘
  • 關聯挖掘
  • 相關性挖掘
  • 聚類挖掘

類/概念描述

類/概念是指要與類或概念關聯的資料。例如,在一家公司中,銷售商品的類別包括計算機和印表機,客戶的概念包括大額消費者和預算消費者。此類類或概念的描述稱為類/概念描述。這些描述可以透過以下兩種方式得出:

  • 資料特徵化 - 這指的是對所研究的類的的資料進行總結。此類研究稱為目標類。

  • 資料區分 - 它指的是將一個類與某個預定義的組或類進行對映或分類。

頻繁模式挖掘

頻繁模式是在事務資料中頻繁出現的模式。以下是頻繁模式型別的列表:

  • 頻繁項集 - 它指的是一組頻繁一起出現的專案,例如牛奶和麵包。

  • 頻繁子序列 - 一系列頻繁出現的模式,例如購買相機後接著購買儲存卡。

  • 頻繁子結構 - 子結構指的是不同的結構形式,例如圖、樹或格,它們可以與項集或子序列組合。

關聯挖掘

關聯用於零售銷售,以識別經常一起購買的模式。此過程指的是揭示資料之間關係並確定關聯規則的過程。

例如,零售商生成一個關聯規則,表明 70% 的時間牛奶與麵包一起出售,只有 30% 的時間餅乾與麵包一起出售。

相關性挖掘

這是一種額外的分析,用於揭示關聯屬性值對或兩個專案集之間有趣的統計相關性,以分析它們是否對彼此產生積極、消極或無影響。

聚類挖掘

聚類是指一組類似的物件。 聚類分析 指的是形成彼此非常相似但與其他聚類中的物件截然不同的物件組。

分類與預測

分類 是查詢描述資料類或概念的模型的過程。目的是能夠使用此模型來預測類標籤未知的物件的類。此派生模型基於對訓練資料集的分析。派生模型可以以以下形式呈現:

  • 分類(IF-THEN)規則
  • 決策樹
  • 數學公式
  • 神經網路

這些過程中涉及的功能列表如下:

  • 分類 - 它預測類標籤未知的物件的類。其目標是找到一個派生模型來描述和區分資料類或概念。派生模型基於訓練資料集的分析,即類標籤眾所周知的物件。

  • 預測 - 它用於預測缺失或不可用的數值資料值,而不是類標籤。迴歸分析通常用於預測。預測也可用於根據可用資料識別分佈趨勢。

  • 異常值分析 - 異常值可以定義為不符合可用資料的通用行為或模型的資料物件。

  • 演化分析 - 演化分析指的是描述和建模其行為隨時間變化的物件的規律或趨勢。

資料探勘任務原語

  • 我們可以用 資料探勘查詢 的形式指定資料探勘任務。
  • 此查詢是輸入到系統中的。
  • 資料探勘查詢是根據資料探勘任務原語定義的。

注意 - 這些原語允許我們以互動方式與資料探勘系統進行通訊。以下是資料探勘任務原語的列表:

  • 要挖掘的相關資料的集合。
  • 要挖掘的知識型別。
  • 用於發現過程的背景知識。
  • 模式評估的趣味性度量和閾值。
  • 用於視覺化發現模式的表示。

要挖掘的相關資料的集合

這是使用者感興趣的資料庫的一部分。此部分包括以下內容:

  • 資料庫屬性
  • 感興趣的資料倉庫維度

要挖掘的知識型別

它指的是要執行的功能型別。這些功能包括:

  • 特徵化
  • 區分
  • 關聯和相關性分析
  • 分類
  • 預測
  • 聚類
  • 異常值分析
  • 演化分析

背景知識

背景知識允許在多個抽象級別上挖掘資料。例如,概念層次結構是允許在多個抽象級別上挖掘資料的背景知識之一。

模式評估的趣味性度量和閾值

這用於評估知識發現過程中發現的模式。對於不同型別的知識,有不同的趣味性度量。

用於視覺化發現模式的表示

這指的是發現模式的顯示形式。這些表示可能包括以下內容:

  • 規則
  • 表格
  • 圖表
  • 圖形
  • 決策樹
  • 多維資料集
廣告

© . All rights reserved.