什麼是異常值檢測?
異常值是指與其餘物件顯著不同的資料物件,就好像它是由不同的機制產生的。為了演示內容,可以將非異常值資料物件定義為“正常”或預期資料。通常,可以將異常值定義為“異常”資料。
異常值是無法在一個給定的類別或叢集中組合的資料成分。這些資料物件的行為與其他資料物件的通常行為存在差異。這種資料的分析對於挖掘知識可能非常重要。
異常值引人注目,因為它們被懷疑並非由與其餘資料相同的結構產生。因此,在異常值檢測中,必須解釋為什麼所識別的異常值是由不同的機制產生的。
單類分類被稱為異常值(或新穎性)檢測,因為學習演算法可用於區分關於訓練記錄分佈的正常和異常資料。
例如,透過觀察新內容不斷湧現的社交媒體網站,新穎性檢測可以迅速識別新的主題和趨勢。新穎的主題最初可能表現為異常值。
異常值檢測和新穎性檢測在建模和檢測方法上有一些相似之處。但兩者之間的一個關鍵區別在於,在新穎性檢測中,一旦確認了新的主題,它們通常會被整合到一般行為模型中,以便後續例項不再被視為異常值。
單類分類的一種通用統計方法是將異常值識別為與給定百分比 p 的訓練資訊的距離 d 超過一定距離的例項。此外,可以透過將包括高斯分佈在內的統計分佈擬合到訓練資訊來計算目標類的機率密度;一些具有低機率值的測試例項可能表現為異常值。
可以透過圍繞焦點資料擬合邊界並將落在邊界外部的示例視為異常值,將多類分類器調整到單類位置。可以透過固定當前多類分類器(包括支援向量機)的內部工作來建立邊界。
這些方法很大程度上依賴於一個引數,該引數決定目標資訊有多少可能被定義為異常值。如果選擇過於保守,焦點類中的資料將被錯誤地丟棄。如果選擇過於寬鬆,模型將過擬合併拒絕過多的合法記錄。拒絕率通常無法在測試期間修改,因為需要在訓練時選擇適當的引數值。
廣告
資料結構
網路
關係型資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP