資料探勘中的離群值型別有哪些?


資料探勘中存在各種型別的離群值,如下所示:

全域性離群值 - 在給定的資料集中,如果一個數據物件與其餘資訊集存在本質上的偏差,則它就是一個全域性離群值。全域性離群值被稱為點異常,是最容易識別的離群值型別。大多數離群值檢測方法都旨在發現全域性離群值。

識別全域性離群值的一個重要問題是找到一個與所討論的應用程式相關的適當偏差度量。已經提出了幾種度量方法,並且根據這些度量方法,離群值檢測方法被劃分為多個類別。

全域性離群值檢測在許多應用中至關重要。例如,考慮計算機網路中的入侵檢測,如果計算機的通訊行為與正常模式不同(例如,在短時間內傳送大量資料包),則此行為可以被視為全域性離群值,相應的計算機被懷疑受到駭客攻擊。

上下文離群值 - 上下文離群值也稱為條件離群值。如果一個數據物件由於給定資料集中某個特定條件而偏離多個數據點,則會出現此類離群值。

資料物件具有兩種型別的屬性:上下文屬性和行為屬性。上下文離群值分析允許使用者在多個上下文和條件下確定離群值,這在許多應用程式中可能是有益的。

在行為屬性中,它可以表示物件的特徵,並用於計算物件在其所屬的上下文中是否為離群值。例如,在溫度的情況下,行為屬性可以是溫度、溼度和壓力。

上下文離群值是區域性離群值的一種概括,區域性離群值的概念是在基於密度的離群值分析方法中引入的。如果資料集中的一個物件的密度與其出現位置的區域性區域存在本質上的偏差,則該物件就是一個區域性離群值。

全域性離群值檢測可以被認為是上下文離群值檢測的一種特殊方法,其中上下文屬性組為空。換句話說,全域性離群值檢測需要將整個資料集作為上下文。上下文離群值分析為使用者提供了靈活性,可以確定多個上下文中的離群值,這在許多應用程式中可能是可取的。

集體離群值 - 在給定的資料集中,當一組資料點偏離其餘資訊集時,稱為集體離群值。因此,單獨的特定資料物件可能不是離群值,但當考慮這些資料物件作為一個整體時,它們可以表現為離群值。

要識別多種型別的離群值,需要了解多個數據物件顯示的離群值行為之間的關係的背景資料。

更新於:2022年2月18日

841 次瀏覽

啟動您的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.