資料泛化和分析泛化的例子是什麼?


資料泛化透過用高階概念(包括年輕、中年和老年)替換相對低階的數值(包括屬性年齡的數值)來總結資料。因此,它是一個將資料庫中大量與任務相關的信 息從相對較低的概念級別抽象到較高概念級別的過程。

以下是用於高效靈活地泛化大型資料集的兩種方法:

**OLAP方法** - 資料立方體技術可以被視為一種基於資料倉庫、面向預計算的物化檢視方法。它在移動 OLAP 或資料探勘查詢進行處理之前實現離線聚合。

**面向屬性的歸納方法** - 這是一種面向關係資料庫查詢、基於泛化的線上資料分析方法。在面向屬性的歸納中,首先使用關係資料庫查詢收集與任務相關的信 息,然後根據對相關資料集中每個屬性的多個不同值的檢查來實現泛化。

泛化是透過屬性移除來實現的。透過組合相同的泛化元組並累積其各自的計數來實現聚合,從而減小泛化資料集的大小並與使用者進行互動式呈現。

面向屬性的歸納方法的基本原理:

  • **資料聚焦** - 資料必須與任務相關,例如維度,結果是原始關係。
  • **屬性移除** - 如果屬性 A 具有大量特定值,但 A 上沒有泛化運算子,或者 A 的高階概念是用其他屬性定義的,則可以選擇相關屬性集或移除屬性 A。
  • **屬性泛化** - 如果屬性 A 具有大量不同的值,並且在 A 上存在一組泛化運算子,則選擇一個運算子並泛化 A。
  • **分析特徵描述** - 這是一種用於預處理資料以過濾掉無關屬性或對相關屬性進行排序的統計方法。屬性相關性分析的度量可以用來分析可以從概念描述過程中取消授權的無關屬性。將此預處理步驟包含到類特徵描述或比較中定義為分析特徵描述。

屬性相關性分析的原因

屬性相關性分析的幾個原因如下:

  • 它可以確定應該包含哪些維度。

  • 它可以實現高水平的泛化。

  • 它可以減少支援我們輕鬆理解模式的屬性數量。

屬性相關性分析背後的基本概念是評估一些可以計算屬性相對於給定類別或方法的相關性的度量。此類度量包括資訊增益、模糊性和相關係數。

更新於:2022年2月15日

1K+ 次瀏覽

開啟您的職業生涯

完成課程獲得認證

開始
廣告