數值資料的離散化和概念層次生成技術有哪些?


由於適用資料範圍廣泛且資料值頻繁更新,因此為數值屬性定義概念層次結構非常複雜且費力。數值資料概念層次生成的各種方法如下:

分箱法 (Binning) − 分箱法是一種基於定義數量的箱子的自頂向下分割技術。這些方法也用作減少數量和生成概念層次結構的離散化方法。這些技術可以遞迴應用於所得分割槽以建立概念層次結構。分箱法不使用類別資料,因此是一種無監督的離散化技術。它容易受到使用者指定箱子數量和異常值存在的影響。

直方圖分析 − 與分箱法類似,直方圖分析是一種無監督的離散化技術,因為它不使用類別資料。直方圖將屬性 A 的值劃分為不相交的範圍,稱為桶。例如,在等寬直方圖中,值被劃分為大小相等的分割槽或價格範圍,其中每個桶的寬度為 10 美元。在等頻直方圖中,值被劃分為每個分割槽包含相同數量的資料元組的分割槽。

可以遞迴地將直方圖分析演算法應用於每個分割槽,以自動生成多級概念層次結構,該過程在達到預先指定數量的概念級別後終止。

也可以為每個級別使用最小區間大小來控制遞迴過程。這指定了每個級別分割槽的最小寬度或每個分割槽的最小值數量。

基於熵的離散化 − 熵通常用作離散化度量。它最初由克勞德·夏農在其關於資訊理論和資訊增益概念的開創性工作中引入。

基於熵的離散化是一種有監督的自頂向下分割技術。它在其計算和分割點(用於劃分屬性範圍的資料值)的確定中探索類別分佈資料。

聚類分析 − 聚類分析是一種流行的資料離散化方法。可以透過將 A 的值劃分為叢集或組來應用聚類演算法對數值屬性 A 進行離散化。

聚類考慮 A 的分佈以及資料點的接近程度,因此可以產生高質量的離散化結果。可以透過遵循自頂向下分割策略或自底向上合併策略來使用聚類為 A 生成概念層次結構,其中每個叢集形成概念層次結構的一個節點。

更新於:2021年11月19日

2K+ 次瀏覽

開啟您的職業生涯

透過完成課程獲得認證

開始學習
廣告
© . All rights reserved.