基於網格的聚類演算法是什麼？

資料探勘資料庫資料結構

網格是一種有效的方法來組織一組資料，在低維度下至少如此。這個概念是將每個屬性的適用值劃分為多個連續的區間，形成一組網格單元。每個物件都落入一個網格單元中，其等效屬性區間包含該物件的值。

可以透過一次遍歷記錄來將物件建立到網格單元中，並且還可以同時收集每個單元格的資料，包括單元格中的點數。

有多種方法可以使用網格實現聚類，但大多數方法都基於密度。基於網格的聚類演算法如下：

表示一組網格單元。
將物件建立到相應的單元格中並計算每個單元格的密度。
刪除密度低於定義閾值 r 的單元格。
從連續的密集單元格形成聚類。

定義網格單元 - 這是過程中的一個基本步驟，但也是最不清楚的步驟，因為有多種方法可以將每個屬性的可能值劃分為多個連續的區間。對於連續屬性，一種方法是將值劃分為寬度相同的區間。如果將此方法應用於每個屬性，則生成的網格單元都具有相同的體積，並且單元格的密度很容易定義為單元格中的點數。

網格單元的密度 - 可以將網格單元的密度定義為點數除以區域的體積。換句話說，密度是單位面積上的點數，無論該區域的維度如何。

從密集網格單元形成聚類 - 從相鄰的密集單元格形成聚類相對容易。存在一些問題，例如需要定義相鄰單元格的含義。聚類方法有一些缺點可以透過使演算法更完善來解決。例如，在聚類的邊界上可能存在部分為空的單元格。

可以透過使用高於密度的資料來改進基本的基於網格的聚類。在某些情況下，記錄同時具有空間和非空間屬性。換句話說，某些屬性定義了物件在時間或空間上的區域，而其他屬性定義了物件的其它方面。

例如，房屋既有區域，也有多個特徵，包括價格或以平方英尺為單位的樓層面積。由於空間（或時間）自相關，特定單元格中的物件對於其其他屬性具有相同的值。

Ginni

更新時間： 2022年2月14日

2K+ 瀏覽量

開啟你的職業生涯

透過完成課程獲得認證

廣告

© . All rights reserved.