基於網格的聚類演算法是什麼?


網格是一種有效的方法來組織一組資料,在低維度下至少如此。這個概念是將每個屬性的適用值劃分為多個連續的區間,形成一組網格單元。每個物件都落入一個網格單元中,其等效屬性區間包含該物件的值。

可以透過一次遍歷記錄來將物件建立到網格單元中,並且還可以同時收集每個單元格的資料,包括單元格中的點數。

有多種方法可以使用網格實現聚類,但大多數方法都基於密度。基於網格的聚類演算法如下:

  • 表示一組網格單元。

  • 將物件建立到相應的單元格中並計算每個單元格的密度。

  • 刪除密度低於定義閾值 r 的單元格。

  • 從連續的密集單元格形成聚類。

定義網格單元 - 這是過程中的一個基本步驟,但也是最不清楚的步驟,因為有多種方法可以將每個屬性的可能值劃分為多個連續的區間。對於連續屬性,一種方法是將值劃分為寬度相同的區間。如果將此方法應用於每個屬性,則生成的網格單元都具有相同的體積,並且單元格的密度很容易定義為單元格中的點數。

網格單元的密度 - 可以將網格單元的密度定義為點數除以區域的體積。換句話說,密度是單位面積上的點數,無論該區域的維度如何。

從密集網格單元形成聚類 - 從相鄰的密集單元格形成聚類相對容易。存在一些問題,例如需要定義相鄰單元格的含義。聚類方法有一些缺點可以透過使演算法更完善來解決。例如,在聚類的邊界上可能存在部分為空的單元格。

可以透過使用高於密度的資料來改進基本的基於網格的聚類。在某些情況下,記錄同時具有空間和非空間屬性。換句話說,某些屬性定義了物件在時間或空間上的區域,而其他屬性定義了物件的其它方面。

例如,房屋既有區域,也有多個特徵,包括價格或以平方英尺為單位的樓層面積。由於空間(或時間)自相關,特定單元格中的物件對於其其他屬性具有相同的值。

更新時間: 2022年2月14日

2K+ 瀏覽量

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告