資料流聚類的 методологии 是什麼?
資料流聚類是指對持續不斷出現的資料進行聚類,這些資料包括電話資料、多媒體資料、貨幣交易等。資料流聚類通常被視為一種流演算法,其目標是在給定一系列點的情況下,利用少量記憶體和時間來對資料流進行最佳聚類。
一些應用程式需要根據資料的相似性將其自動聚類到集合中。例如,用於網路入侵檢測、分析網路點選流和股票市場分析的應用程式。
有幾種動態方法可以對靜態資料集進行聚類,而對資料流進行聚類則對這些演算法提出了額外的要求。可以看出,資料流計算模型需要演算法對資料進行單遍掃描,具有有限的記憶體和確定的處理時間,而資料流可能是高度動態的,並且會隨著時間推移而不斷發展。
資料流聚類有幾種方法,如下所示:
計算並存儲過去資料的摘要 − 由於記憶體空間有限且需要快速響應,因此計算先前檢視資料的摘要,儲存相關結果,並在需要時使用這些摘要來計算重要統計資料。
應用分治策略 − 可以根據到達順序將資料流劃分為塊,計算這些塊的摘要,然後合併這些摘要。在這種方法中,可以從較小的構建塊構建較高級別的模型。
傳入資料流的增量聚類 − 由於流資料不斷且增量地引入系統,因此應該增量地改進叢集的更改。
執行微聚類和宏聚類分析 − 流叢集的計算可以分為兩個步驟:
可以計算和儲存微叢集級別的摘要,其中微叢集是透過應用分層自下而上的聚類演算法形成的。
可以在使用者指定的級別計算宏叢集(例如,使用另一種聚類演算法對微叢集進行分組)。此兩步計算有效地壓縮了資料,並在較小的誤差範圍內提供結果。
探索用於分析叢集演變的多種時間粒度 − 由於較新的資料通常與遠端(即較舊的)資料在流資料分析中扮演不同的角色,因此使用傾斜時間框架模型來儲存不同時間點的摘要資料快照。
將流聚類劃分為線上和離線過程 − 當資料流入時,應計算、儲存和增量更新資料快照的基本摘要。
因此,需要一個線上過程來維護這些動態變化的叢集。同時,使用者可以提出查詢以詢問過去、當前或正在發展的叢集。此類分析可以離線執行,或者作為獨立於線上叢集維護的過程執行。