如何進行配對樣本 t 檢驗


介紹

在機器學習和資料科學中,許多統計檢驗用於比較和發現變數或資料特徵之間的差異。這些檢驗主要是假設檢驗,其中定義了條件,並且根據進行的不同檢驗,假設變數之間的關係。t檢驗也是一種統計檢驗,用於比較分類變數不同組的均值。

在本文中,我們將討論配對 t 檢驗,它是統計學中使用的一種 t 檢驗的擴充套件或型別,我們將討論進行該檢驗的步驟。本文將幫助讀者理解配對 t 檢驗背後的直覺,並能夠在需要時進行該檢驗。

因此,讓我們從最基本的 t 檢驗開始。

什麼是 t 檢驗?

t 檢驗是一種統計檢驗,用於比較分類變數不同組的均值。它用於檢查組之間是否存在差異。有時它也用於特徵選擇,其中定義了假設,並且根據基於 p 值和 t 值的假設的接受和拒絕,選擇和拒絕用於模型訓練的特徵。

在 t 檢驗中,我們基本上取分類變數不同組或類別的均值,然後進行比較以檢查差異。

這裡也計算 t 值,然後將其與臨界 t 值進行比較,如果計算出的 t 值大於臨界 t 值,則拒絕原假設,並假設被比較的不同組的均值之間存在差異。

現在,在普通 t 檢驗的情況下,計算不同組的個體均值,然後將其用於計算檢驗的 t 值,這有助於進行假設檢驗,並據此拒絕和接受原假設和備擇假設。

但在某些情況下,我們需要檢查變數的變化率,或者我們有配對觀測值,其中資料是從同一類別收集的;在這種情況下,使用配對樣本 t 檢驗。

讓我們在下一節中詳細討論這些。

什麼是配對樣本 t 檢驗?

配對樣本 t 檢驗也是一種用於比較不同組均值的 t 檢驗,但是這裡計算均值的差異而不是計算組的個體均值。

簡單來說,它是用於配對樣本的情況下的檢驗,並且如果我們想要研究來自同一變數的兩個組之間均值的變化率。它計算組均值的差異,然後計算 t 值。

簡而言之,當我們有配對或相關的分類變數組時,使用配對 t 檢驗,這些組是資料中某些行動、事件或干預的結果,並且透過某些東西相關。

而普通 t 檢驗用於我們有兩個獨立的分類變數組,它們之間沒有任何關係。

現在讓我們討論進行配對 t 檢驗的工作流程。

進行配對 t 檢驗的工作流程

讓我們逐步討論進行配對 t 檢驗中涉及的各個步驟。

定義假設

進行任何假設檢驗的第一步是首先定義假設。這裡定義原假設和備擇假設,並根據我們在檢驗結束時獲得的 t 值接受和拒絕它們。

收集配對資料

由於在這種情況下我們正在進行配對 t 檢驗,因此此處的將是配對資料,或者資料樣本將是配對的,並從事件的同一類別收集。資料可以從同一物件或在不同時間間隔下具有相同受試者收集。

計算差異

現在,對於每一對觀測值,我們將計算不同組的值的差異。因此,在這裡,對於兩組,我們將對觀測值的某個索引具有一定的值;計算所有觀測值的這些值之間的差異。

求差異的均值

現在,由於我們有了組觀測值之間的差異,我們將取這些差異的均值。此外,還將在這一步計算標準差。

求 t 值

在此步驟中,使用以下公式找到 t 值:

T = 均值差 - 假設差 / sqrt(S^2/n)

求臨界 t 值

下一步是找到 t 的臨界值。這裡使用自由度和顯著性水平來獲得樣本的臨界 t 值。

解釋結果

現在比較檢驗的結果;這裡計算普通的計算 t 值和臨界 t 值,如果計算出的 t 值大於臨界 t 值,則拒絕原假設。

進行配對 t 檢驗的示例

現在讓我們來看一個程式碼示例,以便更清楚地理解配對 t 檢驗。在這裡,我們將使用一個包含 500 個觀測值的虛擬資料集,並且我們將對該資料集進行普通和配對 t 檢驗。

import numpy as np
from scipy import stats
np.random.seed(42)

group_a = np.random.normal(loc=10, scale=2, size=500)
group_b = np.random.normal(loc=12, scale=2, size=500)

# Normal t-test
t_stat, p_value = stats.ttest_ind(group_a, group_b)

# Paired t-test
paired_diff = group_b - group_a
t_stat_paired, p_value_paired = stats.ttest_rel(group_b, group_a)

# The results
print("Normal t-test:")
print("t-statistic:", t_stat)
print("p-value:", p_value)

print("
Paired t-test:") print("t-statistic:", t_stat_paired) print("p-value:", p_value_paired)

輸出

Normal t-test:
t-statistic: -16.54353366592559
p-value: 1.638349016942478e-54

Paired t-test:
t-statistic: 15.951028260754956
p-value: 1.3798771823104818e-46

上述程式碼對樣本資料進行配對和普通 t 檢驗,並列印結果以及相應的 t 值和 p 值。然後,這些值可用於假設檢驗。

結論

在本文中,我們討論了 t 檢驗和配對 t 檢驗,它們測試的含義、使用時間以及它們的主要應用,並討論了它們的工作流程和程式碼示例。本文將幫助讀者更清楚地理解配對 t 檢驗,並將幫助讀者進行該檢驗以比較變數的不同組。

更新於:2023年8月17日

272 次檢視

啟動您的 職業生涯

透過完成課程獲得認證

開始
廣告