什麼是順序異常技術?
順序異常技術模擬了人類區分一系列看似相似物件中異常集合的方法。它有助於揭示資料中的隱式冗餘。
給定一個包含 n 個物件的資料集 D,它構建一系列這些物件的子集 {D1, D2,..., Dm},其中 2 ≤ m ≤ n,包括
$$\mathrm{D_{j−1}\subset D_{j}\:\:其中\: D_{j}\subseteq D}$$
評估系列中子集之間的差異。該技術學習以下術語:
異常集 - 這是偏差或異常值的集合。它被定義為移除後導致剩餘集合中差異最大程度降低的最小物件子集。
差異函式 - 此函式不需要物件之間的度量距離。給定一組物件,如果物件彼此相同,則返回低值。物件之間的差異越大,函式返回的值越高。
子集的差異是根據序列中前一個子集遞增計算的。給定一個包含 n 個數字的子集 {x1,..., xn},一個可能的差異函式是集合中數字的方差
$$\mathrm{\frac{1}{n}\displaystyle\sum\limits_{i=1}^n (x_{i}-x^{'})^2}$$
其中 x' 是集合中 n 個數字的平均值。對於字元字串,差異函式的設計可以是一個模式字串(例如,包括萬用字元),可以涵蓋迄今為止檢視的所有模式。當涵蓋 Dj−1 中某些字串的模式不涵蓋 Dj 中不在 Dj−1 中的某些字串時,差異會增加。
基數函式 - 這通常是給定集合中多個物件的計數。
平滑因子 - 此函式是為序列中的每個子集計算的。它評估透過從初始物件集中消除子集可以減少多少差異。此值按集合的基數進行調整。平滑因子值最高的子集是異常集。
查詢異常集的功能可能是 NP-hard(即難以處理的)。順序方法在計算上是可行的,並且可以使用線性演算法執行。
該演算法不是評估當前子集與其補集相關的差異,而是選擇一系列子集進行分析。對於每個子集,它確定該子集相對於序列中前一個子集的差異。
資料結構
網路
關係資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP