統計學 - 異常值函式



在機率分佈函式中,異常值是指超出資料集長度1.5倍的數字,遠離下四分位數或上四分位數。具體來說,如果一個數字小於${Q_1 - 1.5 \times IQR}$或大於${Q_3 + 1.5 \times IQR}$,則它是一個異常值。

異常值由以下機率函式定義和給出

公式

${異常值資料\lt Q_1 - 1.5 \times IQR\ (或)\ \gt Q_3 + 1.5 \times IQR }$

其中 -

  • ${Q_1}$ = 第一四分位數

  • ${Q_2}$ = 第三四分位數

  • ${IQR}$ = 四分位距

示例

問題陳述

考慮一個數據集,該資料集表示8個不同學生的週期性任務計數。任務計數資訊集為11、13、15、3、16、25、12和14。從學生的週期性任務計數中發現異常值資料。

解決方案

給定資料集為

111315316251214

按升序排列

311121314151625

第一四分位數的值(${Q_1}$)

${ Q_1 = \frac{(11 + 12)}{2} \\[7pt] \ = 11.5 }$

第三四分位數的值(${Q_3}$)

${ Q_3 = \frac{(15 + 16)}{2} \\[7pt] \ = 15.5 }$

下異常值範圍(L)

${ Q_1 - 1.5 \times IQR \\[7pt] \ = 11.5 - (1.5 \times 4) \\[7pt] \ = 11.5 - 6 \\[7pt] \ = 5.5 }$

上異常值範圍(L)

${ Q_3 + 1.5 \times IQR \\[7pt] \ = 15.5 + (1.5 \times 4) \\[7pt] \ = 15.5 + 6 \\[7pt] \ = 21.5 }$

在給定的資訊中,5.5和21.5大於給定資料集中的其他值,即除了3和25之外,因為3大於5.5,而25小於21.5。

這樣,我們使用3和25作為異常值。

廣告

© . All rights reserved.