查詢資料集中的異常值
介紹
異常值是不符合其餘數字模式的資料點。它們是資料集中極高或極低的數值。
查詢異常值的一種簡單方法是檢查資料集中的數字。我們會看到大多數數字都聚集在一個範圍內,而有些數字與其餘數字相比過低或過高。這些數字被稱為異常值。
異常值的另一種定義
與其餘資料明顯分離的資料點。異常值的一種定義是任何資料點小於第一四分位數1.5個四分位距(IQR)或大於第三四分位數1.5個四分位距的資料點。四分位距(IQR)是資料集的第三四分位數與第一四分位數的差。
示例1
查詢資料0、2、5、6、9、12、35中的異常值。
解答
對於給定的資料集,我們有以下五數概括。
最小值 = 0
第一四分位數 = 2
中位數 = 6
第三四分位數 = 12
最大值 = 35
IQR = 12 – 2 = 10,所以1.5·IQR = 15。
要確定是否存在異常值,我們必須考慮超出四分位數1.5·IQR或15的數字。
第一四分位數 – 1.5·IQR = 2 – 15 = –13
第三四分位數 + 1.5·IQR = 12 + 15 = 27
由於35在-13到27的區間之外,因此35是該資料集中的異常值。
示例2
查詢下面給定資料集中的異常值。
28, 26, 29, 30, 81, 32, 37
解答
步驟1
與給定集中其他數字不同的資料是81
步驟2
因此,該資料集的異常值是81