為什麼小波變換對聚類有用?


WaveCluster 是一種多解析度聚類演算法,它首先透過在資料空間上強加多維網格架構來總結記錄。它可以使用小波變換來改變原始特徵空間,在變換後的空間中找到密集的域。

在這種方法中,每個網格單元總結對映到該單元的一組點的的。這些彙總資料通常適合主記憶體,以便多解析度小波變換和隨後的聚類分析使用。

小波變換是一種訊號處理方法,它將訊號分解成多個頻率子帶。小波模型可以透過將一維小波變換使用 d 次來用於 d 維訊號。在應用小波變換時,資料會發生變化,以保留物件在幾個解析度級別上的相對距離。這使得資料中的自然聚類更容易被檢測到。可以透過搜尋新域中的密集區域來識別聚類。

小波變換的優點如下:

它提供無監督聚類:它需要帽形濾波器,這些濾波器強調點聚類的區域,同時抑制聚類邊界外的較弱資料。

  • 它提供無監督聚類 - 它需要帽形濾波器,這些濾波器強調點聚類的區域,同時抑制聚類邊界外的較弱資料。

    因此,初始特徵空間中的密集區域充當相鄰點的吸引子,並充當遠離點的抑制器。這定義了資料中的聚類會自動脫穎而出並“清除”周圍的區域。因此,另一個好處是小波變換可以自動導致異常值的消除。

  • 小波變換的多解析度特徵可以支援在幾個精度級別上檢測聚類。

  • 基於小波的聚類非常快,計算複雜度為 O(n),其中 n 是資料庫中物件的數目。演算法實現可以並行建立。

  • WaveCluster 是一種基於網格和基於密度的演算法 - 它符合良好聚類演算法的幾個要求 - 它可以有效地管理大型資料集,查詢任意形狀的聚類,成功地管理異常值,對輸入順序不敏感,並且不需要輸入引數的定義,包括聚類的數量或鄰域半徑。

    在初步研究中,發現 WaveCluster 在效率和聚類質量方面都優於 BIRCH、CLARANS 和 DBSCAN。該研究還發現 WaveCluster 能夠管理最多 20 維的資料。

更新於: 2021-11-24

1K+ 次檢視

啟動您的 職業生涯

透過完成課程獲得認證

開始
廣告

© . All rights reserved.