資料探勘中的隨機演算法和資料流管理系統是什麼?
隨機演算法——以隨機抽樣和藍圖形式出現的隨機演算法用於處理大型、高維資料流。與已知的確定性演算法相比,隨機化的需求導致了更簡單、更有效的演算法。
如果一個隨機演算法持續返回正確答案,但執行時間發生變化,則稱為拉斯維加斯演算法。相反,蒙特卡洛演算法對執行時間有界限,但無法恢復真實結果。它通常可以考慮蒙特卡洛演算法。隨機演算法的重要性僅僅是作為一組確定性演算法上的機率分佈。
鑑於隨機演算法將隨機變數作為結果恢復,它可能對該隨機變數的尾機率有界限。這告訴我們隨機變數偏離其期望值的機率很小。主要工具是切比雪夫不等式。
設X是一個均值為μ,標準差為σ(方差σ2)的隨機變數。切比雪夫不等式表明:
$$\mathrm{P(|X-\mu|>k)<\frac{\sigma^2 }{k^2}}$$
對於任何給定的正實數k。該不等式用於限制隨機變數的方差。在許多情況下,可以使用多個隨機變數來提高結果的置信度。考慮到這些隨機變數是完全獨立的,可以使用切爾諾夫界。
設X1X2 … Xn為獨立泊松試驗。在泊松試驗中,成功的機率在每次試驗中都會發生變化。如果X是X1到Xn的和,則切爾諾夫界的一個較弱版本告訴我們:
$$\mathrm{P[X<(1+\delta)\mu]< e^{-\mu\delta^2}}$$
其中δ ∈ (0, 1]。這表明機率隨著它遠離均值而呈指數下降,這使得較差的估計不太可能。
資料流管理系統——在資料流管理系統中,存在多個數據流。它們線上出現,是連續的、時間序列的,並且可能是無限的。因為資料流中的一個元件已經被處理,它就被丟棄或存檔,除非它被顯式地儲存在記憶體中,否則不能簡單地檢索它。
流資料查詢處理結構包括三個元素:終端使用者、查詢處理器和暫存空間(可以包括主記憶體和磁碟)。終端使用者向DSMS提出查詢,查詢處理器接收查詢,使用儲存在暫存空間中的資料處理它,並將結果恢復給使用者。
查詢可以是一次性查詢或連續查詢。一次性查詢在資料集的某個時間點的快照上計算一次,並將答案返回給使用者。連續查詢在資料流持續出現時持續計算。