如何進行配對樣本 t 檢驗
介紹
在機器學習和資料科學中,許多統計檢驗用於比較和發現變數或資料特徵之間的差異。這些檢驗主要是假設檢驗,其中定義了條件,並且根據進行的不同檢驗,假設變數之間的關係。t檢驗也是一種統計檢驗,用於比較分類變數不同組的均值。
在本文中,我們將討論配對 t 檢驗,它是統計學中使用的一種 t 檢驗的擴充套件或型別,我們將討論進行該檢驗的步驟。本文將幫助讀者理解配對 t 檢驗背後的直覺,並能夠在需要時進行該檢驗。
因此,讓我們從最基本的 t 檢驗開始。
什麼是 t 檢驗?
t 檢驗是一種統計檢驗,用於比較分類變數不同組的均值。它用於檢查組之間是否存在差異。有時它也用於特徵選擇,其中定義了假設,並且根據基於 p 值和 t 值的假設的接受和拒絕,選擇和拒絕用於模型訓練的特徵。
在 t 檢驗中,我們基本上取分類變數不同組或類別的均值,然後進行比較以檢查差異。
這裡也計算 t 值,然後將其與臨界 t 值進行比較,如果計算出的 t 值大於臨界 t 值,則拒絕原假設,並假設被比較的不同組的均值之間存在差異。
現在,在普通 t 檢驗的情況下,計算不同組的個體均值,然後將其用於計算檢驗的 t 值,這有助於進行假設檢驗,並據此拒絕和接受原假設和備擇假設。
但在某些情況下,我們需要檢查變數的變化率,或者我們有配對觀測值,其中資料是從同一類別收集的;在這種情況下,使用配對樣本 t 檢驗。
讓我們在下一節中詳細討論這些。
什麼是配對樣本 t 檢驗?
配對樣本 t 檢驗也是一種用於比較不同組均值的 t 檢驗,但是這裡計算均值的差異而不是計算組的個體均值。
簡單來說,它是用於配對樣本的情況下的檢驗,並且如果我們想要研究來自同一變數的兩個組之間均值的變化率。它計算組均值的差異,然後計算 t 值。
簡而言之,當我們有配對或相關的分類變數組時,使用配對 t 檢驗,這些組是資料中某些行動、事件或干預的結果,並且透過某些東西相關。
而普通 t 檢驗用於我們有兩個獨立的分類變數組,它們之間沒有任何關係。
現在讓我們討論進行配對 t 檢驗的工作流程。
進行配對 t 檢驗的工作流程
讓我們逐步討論進行配對 t 檢驗中涉及的各個步驟。
定義假設
進行任何假設檢驗的第一步是首先定義假設。這裡定義原假設和備擇假設,並根據我們在檢驗結束時獲得的 t 值接受和拒絕它們。
收集配對資料
由於在這種情況下我們正在進行配對 t 檢驗,因此此處的將是配對資料,或者資料樣本將是配對的,並從事件的同一類別收集。資料可以從同一物件或在不同時間間隔下具有相同受試者收集。
計算差異
現在,對於每一對觀測值,我們將計算不同組的值的差異。因此,在這裡,對於兩組,我們將對觀測值的某個索引具有一定的值;計算所有觀測值的這些值之間的差異。
求差異的均值
現在,由於我們有了組觀測值之間的差異,我們將取這些差異的均值。此外,還將在這一步計算標準差。
求 t 值
在此步驟中,使用以下公式找到 t 值:
T = 均值差 - 假設差 / sqrt(S^2/n)
求臨界 t 值
下一步是找到 t 的臨界值。這裡使用自由度和顯著性水平來獲得樣本的臨界 t 值。
解釋結果
現在比較檢驗的結果;這裡計算普通的計算 t 值和臨界 t 值,如果計算出的 t 值大於臨界 t 值,則拒絕原假設。
進行配對 t 檢驗的示例
現在讓我們來看一個程式碼示例,以便更清楚地理解配對 t 檢驗。在這裡,我們將使用一個包含 500 個觀測值的虛擬資料集,並且我們將對該資料集進行普通和配對 t 檢驗。
import numpy as np from scipy import stats np.random.seed(42) group_a = np.random.normal(loc=10, scale=2, size=500) group_b = np.random.normal(loc=12, scale=2, size=500) # Normal t-test t_stat, p_value = stats.ttest_ind(group_a, group_b) # Paired t-test paired_diff = group_b - group_a t_stat_paired, p_value_paired = stats.ttest_rel(group_b, group_a) # The results print("Normal t-test:") print("t-statistic:", t_stat) print("p-value:", p_value) print("
Paired t-test:") print("t-statistic:", t_stat_paired) print("p-value:", p_value_paired)
輸出
Normal t-test: t-statistic: -16.54353366592559 p-value: 1.638349016942478e-54 Paired t-test: t-statistic: 15.951028260754956 p-value: 1.3798771823104818e-46
上述程式碼對樣本資料進行配對和普通 t 檢驗,並列印結果以及相應的 t 值和 p 值。然後,這些值可用於假設檢驗。
結論
在本文中,我們討論了 t 檢驗和配對 t 檢驗,它們測試的含義、使用時間以及它們的主要應用,並討論了它們的工作流程和程式碼示例。本文將幫助讀者更清楚地理解配對 t 檢驗,並將幫助讀者進行該檢驗以比較變數的不同組。