異常值檢測的挑戰是什麼?


異常值是指與其餘物件本質上存在偏差的資料物件,就好像它是由不同的結構生成的。為方便講解,可以將非異常值資料物件定義為“正常”或預期資訊。類似地,可以將異常值定義為“異常”資料。

異常值是在給定類別或叢集中無法組合的資料元件。這些資料物件的行為與不同資料物件的普遍行為存在差異。對這類資料的分析對於挖掘知識可能非常重要。

異常值檢測的各種挑戰如下:

有效地建模正常物件和異常值 − 異常值檢測很大程度上依賴於對正常(非異常值)物件和異常值的建模。這在一定程度上是因為在一個應用程式中列舉一些可用的正常行為是複雜的。

資料正常性和異常性(異常值)之間的界限並不明確。相反,可能存在廣泛的灰色區域。因此,雖然各種異常值檢測技術將輸入資訊集中的每個物件都標記為“正常”或“異常值”,但其他方法會為每個物件分配一個分數,計算該物件的“異常值”程度。

特定於應用程式的異常值檢測 − 選擇相似性/距離度量和定義資料物件的關聯模型對於異常值檢測至關重要。不幸的是,這些選擇依賴於軟體。一些應用程式可能有多種需求。

處理異常值檢測中的噪聲 − 異常值不同於噪聲。眾所周知,實際資訊集的質量可能較差。噪聲不可避免地存在於在多個應用程式中收集的資料中。噪聲可以表現為屬性值的偏差或表現為缺失值。

低資料質量和噪聲的存在對異常值檢測提出了巨大的挑戰。它們會誤導資訊,模糊正常物件和異常值之間的差異。此外,噪聲和缺失資訊可能會“隱藏”異常值並降低異常值檢測的有效性;異常值可能會“偽裝”成噪聲點,而異常值檢測方法可能會錯誤地將噪聲點識別為異常值。

可理解性 − 在某些應用程式方法中,使用者可能不僅需要檢測異常值,還需要了解為什麼檢測到的物件是異常值。為了結合可理解性要求,異常值檢測技術必須支援某種程度的檢測原因解釋。

例如,可以使用統計方法來驗證一個物件是異常值的程度取決於該物件是由生成大多數記錄的相同結構生成的可能性。可能性越小,該物件是由相同結構生成的可能性越低,該物件是異常值的可能性就越大。

更新於:2022年2月18日

2K+ 次瀏覽

啟動您的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.