資料探勘中的隨機演算法和資料流管理系統是什麼？

資料探勘資料庫資料結構

隨機演算法——以隨機抽樣和藍圖形式出現的隨機演算法用於處理大型、高維資料流。與已知的確定性演算法相比，隨機化的需求導致了更簡單、更有效的演算法。

如果一個隨機演算法持續返回正確答案，但執行時間發生變化，則稱為拉斯維加斯演算法。相反，蒙特卡洛演算法對執行時間有界限，但無法恢復真實結果。它通常可以考慮蒙特卡洛演算法。隨機演算法的重要性僅僅是作為一組確定性演算法上的機率分佈。

鑑於隨機演算法將隨機變數作為結果恢復，它可能對該隨機變數的尾機率有界限。這告訴我們隨機變數偏離其期望值的機率很小。主要工具是切比雪夫不等式。

設X是一個均值為μ，標準差為σ（方差σ²）的隨機變數。切比雪夫不等式表明：

$$\mathrm{P(|X-\mu|>k)<\frac{\sigma^2 }{k^2}}$$

對於任何給定的正實數k。該不等式用於限制隨機變數的方差。在許多情況下，可以使用多個隨機變數來提高結果的置信度。考慮到這些隨機變數是完全獨立的，可以使用切爾諾夫界。

設X₁X₂ … X_n為獨立泊松試驗。在泊松試驗中，成功的機率在每次試驗中都會發生變化。如果X是X₁到X_n的和，則切爾諾夫界的一個較弱版本告訴我們：

$$\mathrm{P[X<(1+\delta)\mu]< e^{-\mu\delta^2}}$$

其中δ ∈ (0, 1]。這表明機率隨著它遠離均值而呈指數下降，這使得較差的估計不太可能。

資料流管理系統——在資料流管理系統中，存在多個數據流。它們線上出現，是連續的、時間序列的，並且可能是無限的。因為資料流中的一個元件已經被處理，它就被丟棄或存檔，除非它被顯式地儲存在記憶體中，否則不能簡單地檢索它。

流資料查詢處理結構包括三個元素：終端使用者、查詢處理器和暫存空間（可以包括主記憶體和磁碟）。終端使用者向DSMS提出查詢，查詢處理器接收查詢，使用儲存在暫存空間中的資料處理它，並將結果恢復給使用者。

查詢可以是一次性查詢或連續查詢。一次性查詢在資料集的某個時間點的快照上計算一次，並將答案返回給使用者。連續查詢在資料流持續出現時持續計算。

Ginni

更新於：2022年2月17日

2K+ 次檢視

啟動您的職業生涯

透過完成課程獲得認證

廣告

© . All rights reserved.