什麼是STING?
STING代表統計資訊網格 (Statistical Information Grid)。STING是一種基於網格的多解析度聚類方法,其中空間區域被劃分為矩形單元。這些矩形單元的幾種方法等同於多種解析度的方法,這些單元形成一個分層結構,每一高層單元都分離以形成下一較低層中的幾個單元。
每個網格單元中屬性的統計資料(包括平均值、最大值和最小值)都被預先計算並存儲。高層單元的統計引數可以簡單地從低層單元的引數計算出來。
這些引數包含以下內容:屬性無關引數、計數以及屬性相關引數、平均值、標準差 (stdev)、最小值 (min)、最大值 (max);以及單元中屬性值遵循的分佈型別,包括正態分佈、均勻分佈、指數分佈或無分佈(如果分佈是匿名的)。
當記錄載入到資料庫中時,底層單元的計數、平均值、標準差、最小值和最大值引數直接從記錄中計算。如果預先知道分佈型別,則可以由使用者分配分佈值,或者透過假設檢驗(包括χ2檢驗)獲得。
可以根據其等效低層單元的整體分佈型別以及閾值過濾程式來評估高層單元的分佈型別。如果低層單元的分佈彼此不一致並且不透過閾值測試,則高層單元的分佈型別設定為無。
基於網格的聚類方法使用多解析度網格資料結構。它將物件空間量化為多個單元,這些單元形成一個網格結構,在該結構上實現一些用於聚類的操作。該方法的優點是其快速處理時間,這通常與資料物件的數量無關,而僅取決於量化空間中每個維度中的多個單元。
基於網格的方法的一個例項包括STING,它探索儲存在網格單元中的統計資料;WaveCluster,它使用小波變換方法對物件進行聚類;以及CLIQUE,它定義了一種用於高維資料區域聚類的基於網格和密度的演算法。
這種方法的優點是查詢無關的方法,因為統計資訊獨立於查詢而存在。它是每個網格單元中資料的常用描述,可用於支援回答大量查詢。計算複雜度為O(K),其中K是最低級別網格單元的數量。通常K << N,其中N是物件的數量。