查詢資料集中的異常值



介紹

異常值是不符合其餘數字模式的資料點。它們是資料集中極高或極低的數值。

查詢異常值的一種簡單方法是檢查資料集中的數字。我們會看到大多數數字都聚集在一個範圍內,而有些數字與其餘數字相比過低或過高。這些數字被稱為異常值。

異常值的另一種定義

與其餘資料明顯分離的資料點。異常值的一種定義是任何資料點小於第一四分位數1.5個四分位距(IQR)或大於第三四分位數1.5個四分位距的資料點。四分位距(IQR)是資料集的第三四分位數與第一四分位數的差。

示例1

查詢資料0、2、5、6、9、12、35中的異常值。

解答

對於給定的資料集,我們有以下五數概括。

最小值 = 0

第一四分位數 = 2

中位數 = 6

第三四分位數 = 12

最大值 = 35

IQR = 12 – 2 = 10,所以1.5·IQR = 15。

要確定是否存在異常值,我們必須考慮超出四分位數1.5·IQR或15的數字。

第一四分位數 – 1.5·IQR = 2 – 15 = –13

第三四分位數 + 1.5·IQR = 12 + 15 = 27

由於35在-13到27的區間之外,因此35是該資料集中的異常值。

示例2

查詢下面給定資料集中的異常值。

28, 26, 29, 30, 81, 32, 37

解答

步驟1

與給定集中其他數字不同的資料是81

步驟2

因此,該資料集的異常值是81

示例3

查詢下面給定資料集中的異常值。

16, 14, 3, 12, 15, 17, 22, 15, 52

解答

步驟1

與給定集中其他數字不同的資料是52

步驟2

因此,該資料集的異常值是52

廣告
© . All rights reserved.