什麼是基於網格的方法?


基於網格的聚類方法使用多解析度網格資料結構。它將物件區域量化為有限數量的單元格,這些單元格形成網格結構,所有聚類操作都在此結構上實現。該方法的優點是處理速度快,通常與資料物件的數量無關,而僅取決於量化空間中每個維度上的多個單元格。

基於網格的方法的一個例項包括STING,它探索儲存在網格單元格中的統計資料;WaveCluster,它使用小波變換方法對物件進行聚類;以及CLIQUE,它定義了一種用於高維資料空間中聚類的基於網格和密度的演算法。

STING是一種基於網格的多解析度聚類方法,其中空間區域被劃分為矩形單元格。通常有幾個這樣的矩形單元格級別對應於多個解析度級別,這些單元格形成一個層次結構,每個高層單元格都被細分為下一個較低級別的多個單元格。關於每個網格單元格中屬性的統計資料(包括均值、最大值和最小值)是預先計算和儲存的。

高層單元格的統計引數可以簡單地從低層單元格的引數計算出來。這些引數包括:屬性無關引數(計數),以及屬性相關引數(均值、標準差 (stdev)、最小值 (min)、最大值 (max));以及單元格中屬性值遵循的分佈型別,包括正態分佈、均勻分佈、指數分佈或無分佈(如果分佈是匿名的)。

當記錄載入到資料庫中時,底層單元格的計數、均值、標準差、最小值和最大值引數將直接從記錄中計算。如果事先知道分佈型別,則可以由使用者分配分佈值,或者透過假設檢驗(包括χ2檢驗)獲得。

可以計算的高層單元格的分佈型別取決於其對應的低層單元格的大多數分佈型別,並結合閾值過濾過程。如果低層單元格的分佈彼此不一致且未透過閾值測試,則高層單元格的分佈型別將設定為無。

統計引數可以按如下方式用於自上而下的基於網格的方法。首先,確定層次結構中查詢應答過程開始的層。該層通常包含少量單元格。對於當前層中的每個單元格,它可以計算置信區間(或機率估計範圍),以反映單元格與給定查詢的相關性。

更新於:2021年11月24日

18K+ 瀏覽量

開啟您的職業生涯

完成課程獲得認證

開始學習
廣告