統計學 - 分層抽樣



這種檢查策略用於總體可以輕鬆地劃分為群體或層的情況,這些群體或層彼此之間特別不同,但在一個群體內的元素在某些屬性方面是同質的,例如,學校的學生可以根據性別、提供的課程、年齡等劃分為層。在這種情況下,總體首先被劃分為層,然後從每個層中抽取一個簡單隨機樣本。分層抽樣有兩種型別:比例分層抽樣和非比例分層抽樣。

  • 比例分層抽樣 - 在這種情況下,從每個層中選擇的單位數量與該層在總體中的比例成正比,例如,在一所大學中,共有 2500 名學生,其中 1500 名學生註冊了本科課程,1000 名學生註冊了研究生課程。如果要使用比例分層抽樣選擇 100 個樣本,則樣本中本科生的數量將為 60,研究生為 40。因此,這兩個層在樣本中的表示比例與其在總體中的表示比例相同。

    當抽樣的目的是估計某個特徵的總體值並且層內方差沒有差異時,這種方法最合適。

  • 非比例分層抽樣 - 當研究的目的是比較層之間的差異時,有必要從所有層中抽取相同數量的單位,而不管它們在總體中的比例如何。有時,某些層在某些特徵方面比其他層變化更大,在這種情況下,可以從變化更大的層中抽取更多數量的單位。在這兩種情況下,抽取的樣本都是非比例分層樣本。

    層的大小和層變異性的差異可以使用以下公式來最佳化分配,以確定來自不同層的樣本量

    公式

    ${n_i = \frac{n.n_i\sigma_i}{n_1\sigma_1+n_2\sigma_2+...+n_k\sigma_k}\ for\ i = 1,2 ...k}$

    其中 -

    • ${n_i}$ = 第i層的樣本量。

    • ${n}$ = 層的大小。

    • ${\sigma_1}$ = 第i層的標準差。

    此外,可能存在在一個層中收集樣本的成本可能高於另一個層的情況。最佳非比例抽樣應以以下方式進行

    ${\frac{n_1}{n_1\sigma_1\sqrt{c_1}} = \frac{n_2}{n_2\sigma_1\sqrt{c_2}} = ... = \frac{n_k}{n_k\sigma_k\sqrt{c_k}}}$

    其中 ${c_1, c_2, ... ,c_k}$ 指的是在k層中抽樣的成本。可以使用以下公式確定來自不同層的樣本量

    ${n_i = \frac{\frac{n.n_i\sigma_i}{\sqrt{c_i}}}{\frac{n_1\sigma_1}{\sqrt{c_i}}+\frac{n_2\sigma_2}{\sqrt{c_2}}+...+\frac{n_k\sigma_k}{\sqrt{c_k}}}\ for\ i = 1,2 ...k}$

示例

問題陳述

一個組織有 5000 名員工,他們被分層為三個級別。

  • 層A:50名高管,標準差=9

  • 層B:1250名非體力勞動者,標準差=4

  • 層C:3700名體力勞動者,標準差=1

如何以非比例的方式抽取 300 名員工的樣本,並進行最佳分配?

解決方案

使用非比例抽樣公式進行最佳分配。

${n_i = \frac{n.n_i\sigma_i}{n_1\sigma_1+n_2\sigma_2+n_3\sigma_3}} \\[7pt] \, 對於層A, {n_1 = \frac{300(50)(9)}{(50)(9)+(1250)(4)+(3700)(1)}} \\[7pt] \, = {\frac{135000}{1950} = {14.75}\ 或說 {15}} \\[7pt] \, 對於層B, {n_1 = \frac{300(1250)(4)}{(50)(9)+(1250)(4)+(3700)(1)}} \\[7pt] \, = {\frac{150000}{1950} = {163.93}\ 或說 {167}} \\[7pt] \, 對於層C, {n_1 = \frac{300(3700)(1)}{(50)(9)+(1250)(4)+(3700)(1)}} \\[7pt] \, = {\frac{110000}{1950} = {121.3}\ 或說 {121}}$
廣告

© . All rights reserved.