12K+ 瀏覽量
順序模式挖掘是挖掘頻繁出現的系列事件或子序列作為模式。順序模式的一個例項是:購買佳能數碼相機的使用者會在一個月內購買惠普彩色印表機。對於零售資訊,順序模式有利於貨架擺放和促銷。這個行業,以及電信和其他企業,也可以使用順序模式進行目標營銷、使用者留存和多項任務。順序模式可用於多個領域,例如網路訪問模式分析、天氣預報、生產過程和網路入侵檢測。給定一組序列,其中每個……閱讀更多
329 瀏覽量
STREAM 是一種單遍、常數空間近似演算法,它是為 k-均值問題而設計的。k-均值問題是將 N 個數據點聚類到 k 個叢集或組中,使得點與其被分配到的叢集中心之間的平方誤差和 (SSQ) 最小化。其思想是將相似的點分配到同一個叢集,而這些點與其他叢集中的點不同。在流資料模型中,資料點只能被檢視一次,並且記憶體和時間有限。它可以實現高質量的聚類,STREAM 演算法處理資料流……閱讀更多
1K+ 瀏覽量
資料流聚類被描述為對連續出現的資料進行聚類,包括電話資料、多媒體資料、貨幣交易等。資料流聚類通常被視為一種流演算法,其目標是在給定一系列點的情況下,利用少量記憶體和時間,對流進行最佳聚類。一些應用程式需要根據其相似性將此類資料自動聚類到集合中。示例包含用於網路入侵檢測、分析網路點選流和股票市場分析的應用程式。有幾種動態方法可以對靜態資料集進行聚類,而對資料流進行聚類會對……閱讀更多
820 瀏覽量
使用者支援兩個輸入引數,包括最小支援閾值 σ 和先前指示的誤差邊界 ε。傳入的流在理論上被劃分為寬度為 w = [1/ε] 的桶。令 N 為當前流長度,即迄今為止檢視的專案數。該演算法需要一個頻率列表資料結構來儲存頻率高於 0 的所有元素。對於每個專案,列表支援 f(近似頻率計數)和 ∆(f 的最大可能誤差)。該演算法按如下方式對專案進行分桶。當一個新的桶到達時,桶中的專案……閱讀更多
2K+ 瀏覽量
隨機演算法 - 以隨機抽樣和藍圖形式出現的隨機演算法用於處理大型、高維資料流。與已知的確定性演算法相比,隨機化的需求導致更簡單、更有效的演算法。如果隨機演算法持續返回正確答案,但執行時間發生變化,則稱為拉斯維加斯演算法。相反,蒙特卡羅演算法對執行時間有界限,但無法恢復真實結果。它通常可以考慮蒙特卡羅演算法。隨機演算法的重要性僅僅是作為機率分佈……閱讀更多
319 瀏覽量
順序異常技術模擬了人類區分一系列看似相似物件之間的異常集合的方法。它有助於資料的隱式冗餘。給定一個包含 n 個物件的資料集 D,它構造一系列這些物件的子集 {D1, D2, ..., Dm},其中 2 ≤ m ≤ n,包括$$\mathrm{D_{j−1}\subset D_{j}\:\:where\: D_{j}\subseteq D}$$評估系列中子集之間的差異。該技術學習以下術語:異常集 - 這是偏差或異常值的集合。它被定義為移除後導致……閱讀更多
142 瀏覽量
分割槽聚類方法是理想的,因為它最小化了集合與其聚類中心之間的距離。如果可以選擇 k-means 方法,則在存在障礙的情況下,聚類中心可能不可用。例如,聚類可能會出現在湖的中心。換句話說,k-medoids 方法選擇叢集內的物件作為中心,因此保證不會出現問題。每次選擇新的中心點時,都必須重新計算每個物件與其新選擇的聚類中心之間的距離。因為在……閱讀更多
4K+ 瀏覽量
PROCLUS 代表投影聚類。它是一種常用的降維子空間聚類技術。也就是說,它不是從個體維度空間開始,而是首先在高維屬性區域中找到聚類的原始近似值。為每個叢集建立每個維度的權重,並在下一次迭代中使用更新的權重來重新建立叢集。這導致探索某些方便維數的所有子空間中的密集區域,並防止在較低維數的投影維度中生成大量重疊的叢集。PROCLUS 透過爬山階段發現最佳的類中心組……閱讀更多
CLIQUE 是第一個為高維空間中的維度增長子區域聚類而設計的演算法。在維度增長子區域聚類中,聚類過程從一維子空間開始,向上增加到更高維的空間。因為 CLIQUE 將每個維度劃分為網格結構,並根據它包含的多個點來確定單元格是否密集。它可以被看作是基於密度和基於網格的聚類方法的整合。CLIQUE 聚類演算法的思想如下:給定一組大型的多維資料點,資料空間通常不會被資料點均勻地佔用。CLIQUE 的聚類識別稀疏和……閱讀更多
401 瀏覽量
COBWEB 將物件增量地新增到分類樹中。COBWEB 沿著分配路徑向下遍歷樹,在此過程中重新整理計數,以尋找定義物件的“最佳主機”或節點。此決定取決於將物件暫時放置在每個節點中並計算由此產生的劃分的類別效用。導致最高元素效用的位置必須是物件的最佳主機。COBWEB 還計算如果為物件建立新節點可能會產生的分割槽的類別效用。物件位於當前類中,或者……閱讀更多