高維資料中異常值檢測的挑戰是什麼?


高維資料中異常值檢測的各種挑戰如下:

異常值的解釋——它們不僅必須能夠識別異常值,還必須支援對異常值的解釋。因為高維資料集包含多個特徵(或維度),所以識別異常值而不支援某些解釋來解釋為什麼它們是異常值並沒有多大幫助。

異常值的解釋可以從顯示異常值的特定子空間或對物件“異常性”的評估中出現。這種解釋可以幫助使用者瞭解異常值的可能含義和重要性。

資料稀疏性——這些方法必須能夠管理高維區域的稀疏性。隨著維數的增加,物件之間的距離變得嚴重地受噪聲支配。因此,高維區域中的資料是稀疏的。

資料子空間——它們應該適當地建模異常值,例如,適應表示異常值的子空間並獲取資訊的區域性行為。使用針對某些子空間的固定距離閾值來識別異常值並不是一個好主意,因為隨著維數的增加,兩個物件之間的距離單調增加。

關於維數的可擴充套件性——隨著維數的增加,多個子空間呈指數級增長。對搜尋空間(包括一些可能的子空間)進行詳盡的組合分析不是一種可擴充套件的方法。

高維資料異常值檢測方法可以分為三種主要方法:

擴充套件傳統的異常值檢測——一種高維資料異常值檢測方法改進了傳統的異常值檢測方法。它需要傳統的基於鄰近度的異常值模型。為了克服高維空間中鄰近度測量的惡化,它需要替代測量或構造子空間並在其中檢測異常值。

HilOut 演算法是這種方法的一個例項。HilOut 發現基於距離的異常值,但在異常值檢測中需要距離的秩而不是絕對距離。特別是,對於每個物件 o,HilOut 發現 o 的 k 個最近鄰,表示為 nn1(o),...,nnk(o),其中 k 是一個軟體相關的引數。

物件 o 的權重表示為

$$\mathrm{w(o) = \displaystyle\sum\limits_{i=1}^k dist(o,nn_{i}(o))}$$

在子空間中查詢異常值——高維資料異常值檢測的另一種方法是在多個子空間中查詢異常值。一個特別的優點是,如果一個物件在一個低得多的維度的子空間中被發現是一個異常值,則該子空間支援執行為什麼以及該物件在多大程度上是一個異常值的關鍵資料。由於維數眾多,這在具有高維資料的高維資料應用中非常有價值。

建模高維異常值——高維資料異常值檢測的另一種方法嘗試精確地為高維異常值生成新模型。

更新於:2022年2月18日

524 次瀏覽

啟動您的職業生涯

透過完成課程獲得認證

開始學習
廣告