如何進行配對樣本 t 檢驗

機器學習 Numpy 程式設計

介紹

在機器學習和資料科學中，許多統計檢驗用於比較和發現變數或資料特徵之間的差異。這些檢驗主要是假設檢驗，其中定義了條件，並且根據進行的不同檢驗，假設變數之間的關係。t檢驗也是一種統計檢驗，用於比較分類變數不同組的均值。

在本文中，我們將討論配對 t 檢驗，它是統計學中使用的一種 t 檢驗的擴充套件或型別，我們將討論進行該檢驗的步驟。本文將幫助讀者理解配對 t 檢驗背後的直覺，並能夠在需要時進行該檢驗。

因此，讓我們從最基本的 t 檢驗開始。

什麼是 t 檢驗？

t 檢驗是一種統計檢驗，用於比較分類變數不同組的均值。它用於檢查組之間是否存在差異。有時它也用於特徵選擇，其中定義了假設，並且根據基於 p 值和 t 值的假設的接受和拒絕，選擇和拒絕用於模型訓練的特徵。

在 t 檢驗中，我們基本上取分類變數不同組或類別的均值，然後進行比較以檢查差異。

這裡也計算 t 值，然後將其與臨界 t 值進行比較，如果計算出的 t 值大於臨界 t 值，則拒絕原假設，並假設被比較的不同組的均值之間存在差異。

現在，在普通 t 檢驗的情況下，計算不同組的個體均值，然後將其用於計算檢驗的 t 值，這有助於進行假設檢驗，並據此拒絕和接受原假設和備擇假設。

但在某些情況下，我們需要檢查變數的變化率，或者我們有配對觀測值，其中資料是從同一類別收集的；在這種情況下，使用配對樣本 t 檢驗。

讓我們在下一節中詳細討論這些。

什麼是配對樣本 t 檢驗？

配對樣本 t 檢驗也是一種用於比較不同組均值的 t 檢驗，但是這裡計算均值的差異而不是計算組的個體均值。

簡單來說，它是用於配對樣本的情況下的檢驗，並且如果我們想要研究來自同一變數的兩個組之間均值的變化率。它計算組均值的差異，然後計算 t 值。

簡而言之，當我們有配對或相關的分類變數組時，使用配對 t 檢驗，這些組是資料中某些行動、事件或干預的結果，並且透過某些東西相關。

而普通 t 檢驗用於我們有兩個獨立的分類變數組，它們之間沒有任何關係。

現在讓我們討論進行配對 t 檢驗的工作流程。

進行配對 t 檢驗的工作流程

讓我們逐步討論進行配對 t 檢驗中涉及的各個步驟。

定義假設

進行任何假設檢驗的第一步是首先定義假設。這裡定義原假設和備擇假設，並根據我們在檢驗結束時獲得的 t 值接受和拒絕它們。

收集配對資料

由於在這種情況下我們正在進行配對 t 檢驗，因此此處的將是配對資料，或者資料樣本將是配對的，並從事件的同一類別收集。資料可以從同一物件或在不同時間間隔下具有相同受試者收集。

計算差異

現在，對於每一對觀測值，我們將計算不同組的值的差異。因此，在這裡，對於兩組，我們將對觀測值的某個索引具有一定的值；計算所有觀測值的這些值之間的差異。

求差異的均值

現在，由於我們有了組觀測值之間的差異，我們將取這些差異的均值。此外，還將在這一步計算標準差。

求 t 值

在此步驟中，使用以下公式找到 t 值：

T = 均值差 - 假設差 / sqrt(S^2/n)

求臨界 t 值

下一步是找到 t 的臨界值。這裡使用自由度和顯著性水平來獲得樣本的臨界 t 值。

解釋結果

現在比較檢驗的結果；這裡計算普通的計算 t 值和臨界 t 值，如果計算出的 t 值大於臨界 t 值，則拒絕原假設。

進行配對 t 檢驗的示例

現在讓我們來看一個程式碼示例，以便更清楚地理解配對 t 檢驗。在這裡，我們將使用一個包含 500 個觀測值的虛擬資料集，並且我們將對該資料集進行普通和配對 t 檢驗。

import numpy as np
from scipy import stats
np.random.seed(42)

group_a = np.random.normal(loc=10, scale=2, size=500)
group_b = np.random.normal(loc=12, scale=2, size=500)

# Normal t-test
t_stat, p_value = stats.ttest_ind(group_a, group_b)

# Paired t-test
paired_diff = group_b - group_a
t_stat_paired, p_value_paired = stats.ttest_rel(group_b, group_a)

# The results
print("Normal t-test:")
print("t-statistic:", t_stat)
print("p-value:", p_value)

print("
Paired t-test:")
print("t-statistic:", t_stat_paired)
print("p-value:", p_value_paired)

輸出

Normal t-test:
t-statistic: -16.54353366592559
p-value: 1.638349016942478e-54

Paired t-test:
t-statistic: 15.951028260754956
p-value: 1.3798771823104818e-46

上述程式碼對樣本資料進行配對和普通 t 檢驗，並列印結果以及相應的 t 值和 p 值。然後，這些值可用於假設檢驗。

結論

在本文中，我們討論了 t 檢驗和配對 t 檢驗，它們測試的含義、使用時間以及它們的主要應用，並討論了它們的工作流程和程式碼示例。本文將幫助讀者更清楚地理解配對 t 檢驗，並將幫助讀者進行該檢驗以比較變數的不同組。

Parth Shukla

更新於：2023年8月17日

272 次檢視

啟動您的職業生涯

透過完成課程獲得認證

開始