- 資料探勘教程
- 資料探勘 - 首頁
- 資料探勘 - 概述
- 資料探勘 - 任務
- 資料探勘 - 問題
- 資料探勘 - 評估
- 資料探勘 - 術語
- 資料探勘 - 知識發現
- 資料探勘 - 系統
- 資料探勘 - 查詢語言
- 分類與預測
- 資料探勘 - 決策樹歸納
- 資料探勘 - 貝葉斯分類
- 基於規則的分類
- 資料探勘 - 分類方法
- 資料探勘 - 聚類分析
- 資料探勘 - 挖掘文字資料
- 資料探勘 - 挖掘全球資訊網
- 資料探勘 - 應用與趨勢
- 資料探勘 - 主題
- 資料探勘有用資源
- 資料探勘 - 快速指南
- 資料探勘 - 有用資源
- 資料探勘 - 討論
資料探勘 - 任務
資料探勘處理可以挖掘的模式型別。根據要挖掘的資料型別,資料探勘中涉及兩種功能類別:
- 描述性
- 分類與預測
描述性功能
描述性功能處理資料庫中資料的通用屬性。以下是描述性功能的列表:
- 類/概念描述
- 頻繁模式挖掘
- 關聯挖掘
- 相關性挖掘
- 聚類挖掘
類/概念描述
類/概念是指要與類或概念關聯的資料。例如,在一家公司中,銷售商品的類別包括計算機和印表機,客戶的概念包括大額消費者和預算消費者。此類類或概念的描述稱為類/概念描述。這些描述可以透過以下兩種方式得出:
資料特徵化 - 這指的是對所研究的類的的資料進行總結。此類研究稱為目標類。
資料區分 - 它指的是將一個類與某個預定義的組或類進行對映或分類。
頻繁模式挖掘
頻繁模式是在事務資料中頻繁出現的模式。以下是頻繁模式型別的列表:
頻繁項集 - 它指的是一組頻繁一起出現的專案,例如牛奶和麵包。
頻繁子序列 - 一系列頻繁出現的模式,例如購買相機後接著購買儲存卡。
頻繁子結構 - 子結構指的是不同的結構形式,例如圖、樹或格,它們可以與項集或子序列組合。
關聯挖掘
關聯用於零售銷售,以識別經常一起購買的模式。此過程指的是揭示資料之間關係並確定關聯規則的過程。
例如,零售商生成一個關聯規則,表明 70% 的時間牛奶與麵包一起出售,只有 30% 的時間餅乾與麵包一起出售。
相關性挖掘
這是一種額外的分析,用於揭示關聯屬性值對或兩個專案集之間有趣的統計相關性,以分析它們是否對彼此產生積極、消極或無影響。
聚類挖掘
聚類是指一組類似的物件。 聚類分析 指的是形成彼此非常相似但與其他聚類中的物件截然不同的物件組。
分類與預測
分類 是查詢描述資料類或概念的模型的過程。目的是能夠使用此模型來預測類標籤未知的物件的類。此派生模型基於對訓練資料集的分析。派生模型可以以以下形式呈現:
- 分類(IF-THEN)規則
- 決策樹
- 數學公式
- 神經網路
這些過程中涉及的功能列表如下:
分類 - 它預測類標籤未知的物件的類。其目標是找到一個派生模型來描述和區分資料類或概念。派生模型基於訓練資料集的分析,即類標籤眾所周知的物件。
預測 - 它用於預測缺失或不可用的數值資料值,而不是類標籤。迴歸分析通常用於預測。預測也可用於根據可用資料識別分佈趨勢。
異常值分析 - 異常值可以定義為不符合可用資料的通用行為或模型的資料物件。
演化分析 - 演化分析指的是描述和建模其行為隨時間變化的物件的規律或趨勢。
資料探勘任務原語
- 我們可以用 資料探勘查詢 的形式指定資料探勘任務。
- 此查詢是輸入到系統中的。
- 資料探勘查詢是根據資料探勘任務原語定義的。
注意 - 這些原語允許我們以互動方式與資料探勘系統進行通訊。以下是資料探勘任務原語的列表:
- 要挖掘的相關資料的集合。
- 要挖掘的知識型別。
- 用於發現過程的背景知識。
- 模式評估的趣味性度量和閾值。
- 用於視覺化發現模式的表示。
要挖掘的相關資料的集合
這是使用者感興趣的資料庫的一部分。此部分包括以下內容:
- 資料庫屬性
- 感興趣的資料倉庫維度
要挖掘的知識型別
它指的是要執行的功能型別。這些功能包括:
- 特徵化
- 區分
- 關聯和相關性分析
- 分類
- 預測
- 聚類
- 異常值分析
- 演化分析
背景知識
背景知識允許在多個抽象級別上挖掘資料。例如,概念層次結構是允許在多個抽象級別上挖掘資料的背景知識之一。
模式評估的趣味性度量和閾值
這用於評估知識發現過程中發現的模式。對於不同型別的知識,有不同的趣味性度量。
用於視覺化發現模式的表示
這指的是發現模式的顯示形式。這些表示可能包括以下內容:
- 規則
- 表格
- 圖表
- 圖形
- 決策樹
- 多維資料集