統計學 - 峰度



峰度衡量的是分佈的尾部特徵,它告訴我們分佈比正態分佈更容易或更不容易出現離群值(尾部較重或較輕)的程度。Investopedia 提供的三種不同型別的曲線如下:

kurtosis

從密度圖(左圖)中很難辨別不同型別的峰度,因為所有分佈的尾部都接近於零。但是,在正態分位數-分位數圖(右圖)中,尾部的差異很容易看到。

正態曲線稱為正態峰度曲線。如果一個分佈的曲線比正態曲線或正態峰度曲線更容易出現離群值(或尾部較重),則它被稱為尖峰峰度曲線。如果一條曲線的離群值比正態曲線少(或尾部較輕),則它被稱為低峰峰度曲線。峰度由矩來衡量,其公式如下:

公式

$\beta_2 = \frac{\mu_4}{\mu_2^2}$

其中:

  • $\mu_4 = \frac{\sum(x- \bar x)^4}{N}$

$\beta_2$ 值越大,曲線越尖銳或越尖峰。正態曲線的 $\beta_2$ 值為 3,尖峰峰度曲線的 $\beta_2$ 值大於 3,低峰峰度曲線的 $\beta_2$ 值小於 3。

示例

問題陳述

給出了某工廠 45 名工人的日工資資料。使用關於均值的矩計算 $\beta_1$ 和 $\beta_2$。對結果進行評論。

工資(盧比)工人數量
100-2001
120-2002
140-2006
160-20020
180-20011
200-2003
220-2002

解答

工資
(盧比)
工人數量
(f)
中點
m
m-$\frac{170}{20}$
d
fdfd²fd³fd⁴
100-2001110-3-39-2781
120-2002130-2-48-1632
140-2006150-1-66-66
160-2002017000000
180-20011190111111111
200-200321026122448
220-2002230361854162
 N=45  $\sum fd = 10$$\sum fd^2 = 64$$\sum fd^3 = 40$$\sum fd^4 = 330$

由於偏差是從假設均值計算的,因此我們首先計算關於任意原點的矩,然後計算關於均值的矩。關於任意原點'170'的矩

$\mu_1' = \frac{\sum fd}{N} \times i = \frac{10}{45} \times 20 = 4.44 \\ \mu_2' = \frac{\sum fd^2}{N} \times i^2 = \frac{64}{45} \times 20^2 = 568.88 \\ \mu_3' = \frac{\sum fd^3}{N} \times i^3 = \frac{40}{45} \times 20^3 = 7111.11 \\ \mu_4' = \frac{\sum fd^4}{N} \times i^4 = \frac{330}{45} \times 20^4 = 1173333.33$

關於均值的矩

$\mu_2 = \mu_2' - (\mu_1')^2 = 568.88 - (4.44)^2 = 549.16 \\ \mu_3 = \mu_3' - 3(\mu_1')(\mu_2') + 2(\mu_1')^3 \\ = 7111.11 - (4.44)(568.88) + 2(4.44)^3 \\ = 7111.11 - 7577.48 + 175.05 = -291.32 \\ \mu_4 = \mu_4' - 4(\mu_1')(\mu_3') + 6(\mu_1')^2(\mu_2') - 3(\mu_1')^4 \\ = 1173333.33 - 4(4.44)(7111.11) + 6(4.44)^2(568.88) - 3(4.44)^4 \\ = 1173333.33 - 126293.31 + 67288.03 - 1165.87 \\ = 1113162.18$

根據關於均值的矩的值,我們現在可以計算 $\beta_1$ 和 $\beta_2$

$\beta_1 = \frac{\mu_3^2}{\mu_2^3} = \frac{(-291.32)^2}{(549.16)^3} = 0.00051 \\ \beta_2 = \frac{\mu_4}{\mu_2^2} = \frac{1113162.18}{(546.16)^2} = 3.69$

從上述計算可以得出結論,衡量偏度的 $\beta_1$ 幾乎為零,表明分佈幾乎是對稱的。衡量峰度的 $\beta_2$ 值大於 3,因此意味著分佈為尖峰峰度。

廣告