異常的成因是什麼?
在異常檢測中,目標是發現與多個物件不同的物件。通常,異常物件被稱為離群值,因為在資料的散點圖上,它們遠離多個數據點。異常檢測被稱為偏差檢測,因為異常物件具有與預期或一般屬性值本質上不同的屬性值,或者作為異常值挖掘,因為異常在多種意義上是異常的。
在全球、人類社會或資料組的領域,大多數事件和物件在表示上都是常見的區域或規則的。但它可以對不同或非凡的物件的可行性有敏銳的瞭解。這包括異常乾燥或多雨的季節、受歡迎的運動員,或比所有其他運動員都小或高的屬性值。
異常的一些原因如下:
來自不同類別的的資料 - 一個物件可能與多個物件不同,例如異常,因為它屬於多個型別或類別。例如,某人犯信用卡欺詐屬於比那些準確需要信用卡的人不同的信用卡使用者類別。
一些顯示的例子,如欺詐、入侵、疾病爆發和異常測試結果,是定義不同類別元素的異常的例項。此類異常非常重要,並且是資料探勘領域中異常識別目標。
自然變化 - 一些資料集可以透過統計分佈建模,包括正態(高斯)分佈,其中資料物件的機率隨著物件與分佈中心的距離增加而逐漸降低。
換句話說,一些物件靠近中心(平均物件),並且物件與該平均物件本質上不同的可能性很小。例如,一個異常高的人在來自獨立物件類別的方法上並不是異常的,而只是在具有某些物件消耗的特徵(身高)的完整值的方法上是異常的。定義嚴重或不可能變化的異常很有趣。
資料測量和收集錯誤 - 資料集或測量過程中的錯誤是異常的另一個原因。例如,由於人為錯誤、計算裝置問題或噪聲的存在,測量結果可能記錄不正確。
目標是消除此類異常,因為它們不支援任何有趣的資料,只會降低資料的特徵和後續的資料分析。實際上,刪除此類異常是資料預處理,特別是資料清洗的目標。
廣告