異常值檢測的方法有哪些?
異常值檢測的方法多種多樣,如下所示:
監督方法 - 監督方法對資料的正常性和異常性進行建模。領域專業人員測試並標記基本資料樣本。異常值檢測可以建模為分類問題。目的是理解能夠識別異常值的分類器。
該樣本可用於訓練和測試。在各種應用中,專業人員可以僅標記正常物件,並且一些不符合正常物件模型的物件被記錄為異常值。有不同的方法對異常值進行建模,並將不符合異常值模型的物件視為正常。
無監督方法 - 在各種應用方法中,標記為“正常”或“異常值”的物件不適用。因此,必須使用無監督學習方法。無監督異常值檢測方法建立了一個隱式假設,例如正常物件被相當“聚集”。
無監督異常值檢測方法預測正常物件遵循的模式比異常值更普遍。正常物件不必下降到一個具有高度相似性的團隊中。相反,它們可以形成多個組,其中每個組具有多個特徵。
這種假設有時不成立。正常物件不會發送一些強模式。相反,它們是均勻分佈的。集體異常值在較小的區域內具有高度相似性。
無監督方法無法有效地識別此類異常值。在某些應用中,正常物件是分別分佈的,並且一些物件不遵循強模式。例如,在一些入侵檢測和計算機病毒檢測問題中,正常活動是不同的,並且一些活動不會下降到高質量的叢集中。
一些聚類方法可以被改編為促進作為無監督異常值檢測方法。主要思想是首先發現聚類,因此不屬於某些聚類的資料物件被識別為異常值。但是,此類方法會因兩個問題而惡化。首先,不屬於某個聚類的資料物件可能是噪聲而不是異常值。其次,首先發現聚類然後發現異常值成本很高。
半監督方法 - 在一些應用中,雖然獲得一些標記的例項是可能的,但此類標記例項的數量很少。它可能遇到只有少量正常和異常值物件被標記的情況,但一些資料未標記。半監督異常值檢測方法是為了解決此類方法而產生的。
半監督異常值檢測方法可以被認為是半監督學習方法的應用。例如,當一些標記的正常物件可用時,它可以將它們與附近的未標記物件一起使用,以訓練正常物件的模型。正常物件的模型用於識別異常值 - 那些不適合正常物件模型的物件被定義為異常值。