什麼是統計方法?


統計方法是基於模型的方法,例如為資料生成一個模型,並根據物件與模型的擬合程度計算物件。大多數用於異常值檢測的統計方法都依賴於開發機率分佈模型,並考慮物件低於該模型的可能性。

異常值是指相對於資料機率分佈模型而言機率低的物件。機率分佈模型是透過計算使用者定義分佈的引數從資料中生成的。

如果資料被認為具有高斯分佈,則可以透過計算資料的均值和標準差來測量基本分佈的均值和標準差。可以計算每個物件低於分佈的機率。

已經設計出一種廣泛的基於統計檢驗的方法來識別異常值,或者像統計文獻中所說的那樣,識別不一致的觀察值。其中一些不一致性檢驗非常專業,並且需要超出本文範圍的統計知識水平。

識別資料集的特定分佈 - 雖然幾種型別的資料可以透過少量常見分佈(包括高斯、泊松或二項式)來定義,但具有非標準分佈的資料集也很常見。當然,如果選擇了錯誤的模型,則可能錯誤地將物件識別為異常值。

例如,資料可以建模為來自高斯分佈,但可能來自一個分佈,該分佈具有比高斯分佈更大的機率接收遠離均值的數值。具有此類行為的統計分佈在實踐中很常見,稱為重尾分佈。

使用的屬性數量 - 一些統計異常值檢測技術用於單個屬性,但一些技術已被應用於多元資料。

分佈的混合 - 資料可以建模為分佈的組合,並且可以基於此類模型生成異常值檢測方案。儘管可能更具動態性,但此類模型在學習和使用方面都比較複雜。例如,需要識別早期的物件才能將其定義為異常值。

異常值檢測的統計方法具有堅實的基礎,並且構建在標準統計技術之上,包括計算分佈的引數。當對資料和必須使用的測試型別有充分的瞭解時,這些測試可以非常有效。對於單個屬性,存在多種統計異常值檢驗方法。對於多元資料,可用的選項較少,並且這些檢驗在高維記錄中可能執行不佳。

更新於: 2022年2月14日

2K+ 次檢視

啟動您的 職業生涯

透過完成課程獲得認證

開始
廣告

© . All rights reserved.