什麼是異常值?


異常值是指與其餘物件顯著不同的資料物件,就好像它是由不同的機制產生的。為方便表達,可以將非異常值資料物件定義為“正常”或預期資訊。通常,可以將異常值定義為“異常”資料。

異常值是無法歸入特定類別或叢集的資料元件。這些資料物件的行為與其他資料物件的通常行為有所不同。對這類資料的分析對於知識挖掘非常重要。

異常值與噪聲資訊不同。噪聲是計算變數中的隨機錯誤或方差。通常,噪聲在資料分析中並不重要,例如異常值檢測。

例如,在信用卡欺詐檢測中,使用者的購買行為可以建模為隨機變數。使用者可能會進行一些“噪聲交易”,這些交易看起來像“隨機錯誤”或“方差”,例如某一天購買了更豐盛的午餐,或者比平時多喝了一杯咖啡。

此類交易不應被視為異常值;因此,信用卡公司可能會因為驗證某些交易而產生高昂的成本。公司也可能因為多次發出錯誤警報而流失使用者。與許多資料分析和資料探勘服務一樣,必須在異常值檢測之前消除噪聲。

一些真實世界資料庫包含異常值或缺失、匿名或錯誤的資料。一些聚類演算法對這類資料很敏感,可能會生成質量較差的叢集。

異常值之所以重要,是因為它們被懷疑並非由與其餘資料相同的結構產生。因此,在異常值檢測中,必須解釋為什麼所識別的異常值是由不同的機制產生的。

這是透過對其餘資訊做出各種假設並證明檢測到的異常值顯著違反這些假設來實現的。異常值檢測還與包括資料集合中的新穎性檢測相關。例如,透過觀察一個不斷出現新內容的社交媒體網站,新穎性檢測可以及時識別新的主題和趨勢。

新穎的主題最初可能表現為異常值。異常值檢測和新穎性檢測在建模和檢測方法上有一些相似之處。但兩者之間的一個關鍵區別在於,在新穎性檢測中,一旦確認了新的主題,它們通常會被整合到一般行為模型中,以便後續例項不再被視為異常值。

更新於:2022年2月18日

2K+ 次瀏覽

啟動您的職業生涯

透過完成課程獲得認證

開始學習
廣告