異常檢測的挑戰有哪些?


異常檢測存在各種問題,如下所示:

用於定義異常的屬性數量 - 一個物件是否異常取決於單個屬性,即該物件的該屬性值是否異常。因為一個物件可以有多個屬性,它可以對多個屬性具有異常值,但對多個屬性具有普通值。

此外,即使物件的任何屬性值本身並非異常,該物件也可能仍然是異常的。例如,身高兩英尺(兒童)或體重300磅的人很常見,但身高兩英尺體重300磅的人則異常。

異常的描述應該定義如何使用多個屬性的值來決定一個物件是否為異常。當資料的維度很大時,這是一個關鍵問題。

全域性視角與區域性視角 - 一個物件相對於所有物件可能顯得異常,但相對於其區域性鄰域中的物件則可能不異常。例如,一個身高6英尺5英寸的人相對於普通人群來說非常高,但相對於職業籃球運動員來說則不異常。

點異常的程度 - 一些方法以二元方式記錄對物件是否為異常的評估:一個物件是異常的或不是異常的。通常,這並不能反映基本現實,即有些物件比其他物件更明顯的異常。因此,對物件異常程度進行多級評估非常有意義。此評估稱為異常分數或離群值分數。

一次識別一個異常與一次識別多個異常 - 在某些方法中,異常被逐個消除;即,識別並去除最異常的樣本,然後重複此過程。對於許多技術,則會同時識別出一組異常。

嘗試一次識別一個異常的技術通常會遇到一個稱為“掩蔽”的問題,其中多個異常的存在掩蓋了所有異常的存在。換句話說,同時識別多個異常的技術可能會遇到“淹沒”的問題,其中正常物件被定義為異常值。在基於模型的方法中,這些效應可能出現是因為異常改變了資料模型。

效率 - 各種異常檢測方案的計算成本存在顯著差異。基於分類的方案可能需要大量的資源來構建分類模型,但通常使用起來成本低廉。同樣,統計方法會生成統計模型,並且可以在恆定時間內對元素進行分類。

更新於:2022年2月14日

539 次瀏覽

開啟您的職業生涯

透過完成課程獲得認證

開始學習
廣告
© . All rights reserved.