這些統計資訊如何用於查詢回答?


統計引數可以用於自上而下、基於網格的方法,如下所示。首先,從層次結構體系中確定一個層作為查詢回答過程的起點。

此層通常包含少量單元格。對於當前層中的每個單元格,它可以計算置信區間(或估計機率範圍),以反映單元格與給定查詢的相關性。

高層單元格的統計引數可以簡單地從低層單元格的引數計算得出。這些引數包含以下內容:屬性無關引數、計數以及屬性相關引數、平均值、標準差、最小值、最大值;以及單元格中屬性值遵循的分佈型別,包括正態分佈、均勻分佈、指數分佈或無(如果分佈是匿名的)。

不相關的單元格將從進一步的考慮中移除。後續低層處理僅測試剩餘的相關單元格。此階段重複進行,直到獲得底層。如果查詢描述得到滿足,則使用查詢的相關單元格區域將被恢復。

STING 提供了一些優勢,如下所示:

  • 基於網格的計算與查詢無關,因為儲存在每個單元格中的統計資料定義了網格單元格中資料的摘要記錄,與查詢無關。

  • 網格架構支援並行處理和增量重新整理。

  • 技術效率是一個主要優勢。STING 遍歷資料庫,因為它可以計算單元格的數值引數,因此生成聚類的時​​間複雜度為 O(n),其中 n 是物件的總數。

  • 在建立層次結構體系結構後,查詢處理時間為 O(g),其中 g 是最低級別網格單元格的總數,通常小於 n。

  • 由於 STING 需要一種多解析度方法進行聚類分析,因此 STING 聚類的質量基於網格架構最低級別的粒度。如果粒度非常細,處理的價值將大大提高;但是,如果網格架構的底層過於粗糙,則會降低聚類分析的質量。

  • STING 在開發父單元格時沒有處理子單元格及其相鄰單元格之間的空間關係。因此,輸出聚類的形狀是等軸的;即,一些聚類邊界是水平或垂直的,並且沒有發現對角線邊界。儘管該技術處理速度快,但這可能會降低聚類的質量和確定性。

更新於:2022年2月17日

103 次檢視

啟動你的 職業生涯

透過完成課程獲得認證

開始
廣告

© . All rights reserved.