離群值檢驗是如何工作的?
統計離群值檢驗分析兩個假設:工作假設和備擇假設。工作假設H是一個陳述,即n個物件的整個資料集都來自初始分佈模型F,即H:oi ∈ F,其中i = 1, 2, …, n。
如果沒有統計上重要的證據支援其拒絕,則保留該假設。離群值檢驗檢查物件oi相對於分佈F是否本質上很大(或很小)。基於對資料的可用知識,已經提出了不同的檢驗統計量作為離群值檢驗。
假設已經為離群值檢驗選擇了一些統計量T,並且物件oi的統計量值為vi,則構造T的分佈。計算顯著性機率SP(vi) = Prob(T > vi)。
如果某個SP(vi)足夠小,則oi是離群值,並且拒絕工作假設。採用另一種假設,該假設指出oi來自另一個分佈模型G。結果很大程度上取決於選擇哪個F模型,因為oi在一個模型下可能是異常值,而在另一個模型下卻是完全有效的值。
備擇分佈對於決定檢驗的功效(即當oi為異常值時拒絕工作假設的機率)非常重要。有幾種型別的備擇分佈。
固有備擇分佈 − 在這種情況下,所有物件都來自分佈F的工作假設被另一個假設所取代,即所有物件都來自另一個分佈G −
H:oi ∈ G,其中i = 1, 2, …, n
F和G可以是不同的分佈,或者僅在同一分佈的引數上有所不同。對G分佈的形式有一些約束,因為它應該有可能產生異常值。例如,它可以具有不同的均值或離散度,或者具有長尾。
混合備擇分佈 − 混合備擇假設指出,離群值不是F總體中的異常值,而是來自其他一些總體的汙染。在這種情況下,備擇假設是 −
H:oi ∈ (1 – l)F + lG,其中i = 1, 2, …, n
偏移備擇分佈 − 此備擇假設指出,所有物件(除了某個規定的少量物件之外)都獨立地來自具有引數m和s²的原始模型F,而其餘物件是F的修改版本的獨立觀測值,其中引數已被更改。
廣告