統計學 - Kolmogorov Smirnov檢驗



此檢驗用於需要比較觀察樣本分佈與理論分佈的情況。

K-S單樣本檢驗

此檢驗用作擬合優度檢驗,當樣本量較小時非常理想。它將變數的累積分佈函式與指定的分佈進行比較。零假設假設觀察分佈與理論分佈之間沒有差異,並且檢驗統計量“D”的值計算如下

公式

$D = 最大值 |F_o(X)-F_r(X)|$

其中 -

  • ${F_o(X)}$ = n個觀測值的隨機樣本的觀察累積頻率分佈。

  • 以及 ${F_o(X) = \frac{k}{n}}$ = (≤X的觀測值數)/(觀測值總數)。

  • ${F_r(X)}$ = 理論頻率分佈。

從K-S表中找到單樣本檢驗的${D}$的臨界值。

接受標準:如果計算值小於臨界值,則接受零假設。

拒絕標準:如果計算值大於表值,則拒絕零假設。

示例

問題陳述

在一項針對大學不同專業的60名學生的調查中,從每個專業抽取相同數量的學生進行訪談,並記錄了他們加入大學戲劇俱樂部的意願。

 理學士文學士工商管理學士文學碩士工商管理碩士
每個班級的數量59111619

預計每個班級的12名學生將加入戲劇俱樂部。使用K-S檢驗來確定學生班級在加入戲劇俱樂部的意願方面是否存在差異。

解決方案

${H_o}$:不同專業的學生在加入戲劇俱樂部的意願方面沒有差異。

我們為觀察分佈和理論分佈開發累積頻率。

專業有興趣加入的學生人數${F_O(X)}$${F_T(X)}$${|F_O(X)-F_T(X)|}$
 觀察值
(O)
理論值
(T)
   
理學士5125/6012/607/60
文學士91214/6024/6010/60
工商管理學士111225/6036/6011/60
文學碩士161241/6048/607/60
工商管理碩士191260/4060/6060/60
總數n=60    

檢驗統計量${|D|}$計算如下

$D = 最大值 {|F_0 (X)-F_T (X)|} \\[7pt] \, = \frac{11}{60} \\[7pt] \, = 0.183$

在5%顯著性水平下,D的表值由下式給出

${D_0.05 = \frac{1.36}{\sqrt{n}}} \\[7pt] \, = \frac{1.36}{\sqrt{60}} \\[7pt] \, = 0.175$

由於計算值大於臨界值,因此我們拒絕零假設,並得出結論,不同專業的學生在加入俱樂部的意願方面存在差異。

K-S雙樣本檢驗

當有兩個獨立樣本而不是一個樣本時,可以使用K-S雙樣本檢驗來檢驗兩個累積分佈之間的一致性。零假設表明兩個分佈之間沒有差異。D統計量的計算方式與K-S單樣本檢驗相同。

公式

${D = 最大值 |{F_n}_1(X)-{F_n}_2(X)|}$

其中 -

  • ${n_1}$ = 第一個樣本的觀測值。

  • ${n_2}$ = 第二個樣本的觀測值。

可以看出,當累積分佈顯示較大的最大偏差${|D|}$時,表明兩個樣本分佈之間存在差異。

對於${n_1 = n_2}$且≤ 40的樣本,使用雙樣本情況下的K-S表來查詢D的臨界值。當${n_1}$和/或${n_2}$ > 40時,應使用雙樣本大樣本的K-S表。如果計算值小於表值,則接受零假設,反之亦然。

因此,使用任何這些非引數檢驗都可以幫助研究人員在目標總體特徵未知或未對其進行任何假設的情況下檢驗結果的顯著性。

廣告