專案反應理論在心理學中的應用

專案反應理論 (IRT)，也稱為潛在特質理論、強真分數理論或現代心理測驗理論，是心理測量學中用於測試問卷和其他類似工具的一種範例：設計、評估和評分用於測量技能、態度或其他變數。

什麼是專案反應理論？

在1950年之前，專案反應函式的概念就已經存在。20世紀50年代和60年代見證了專案反應理論作為理論的發展。教育考試服務中心的心理測量學家弗雷德里克·M·洛德、喬治·拉什和奧地利社會學家保羅·拉扎斯菲爾德是三位分別進行平行研究的先驅。專案反應理論 (IRT) 的目標是研究測試或問卷的反應，以提高測量的準確性和可靠性。

它是一個基於測試者在測試專案旨在評估的總體能力衡量指標上的績效水平與其在測試專案上的績效之間關係的檢驗假設。各種統計模型都代表了專案和測試者特徵。與更直接的量表開發和問卷回覆分析方法不同，它不假設量表上的每個專案都同樣具有挑戰性。

專案反應理論模型

專案反應理論有很多不同的模型。其中三個最流行的是

拉什模型

拉什模型是各種專案反應理論應用中最廣泛使用的專案反應理論模型之一。假設你有J個二元專案，X1,......., XJ，其中1表示正確回答，$0$ 表示錯誤回答。拉什模型使用以下公式計算回答正確的可能性。

$\mathrm{p_r(x_{ij}=1)=\frac{e^{n_i-a_j}}{1+e^{n_j-a_j}}}$

其中ni是受試者i的能力，aj是專案j的難度引數。正確回答的機率由專案的難度和受試者的能力決定。圖1中的曲線，在專案反應理論領域被稱為專案特徵曲線 (ICC)，可以用來表示這種可能性。從該曲線可以看出，機率是能力的單調遞增函式。隨著受試者能力的提高，正確回答的機率也隨之提高。

圖1：專案特徵曲線

顧名思義，專案難度引數衡量正確回答一個專案有多難。根據前面的等式，對於任何能力等於難度引數值的受試者，正確回答的機率為0.5。

雙引數模型

拉什模型假設每個專案都具有統一的形狀。然而，這種假設可能並不成立。為了避免這種假設，引入了新的引數——區分度（斜率）引數。由此產生的模型被稱為雙引數模型。在雙引數模型中，正確回答的可能性由下式給出：

$\mathrm{p_r(x_{ij}=1)\frac{e^{\lambda_ jn_i-a_{1}}}{1+e^{\lambda_ jn_i-a_{1}}}}$

其中$λj$ 是專案j的區分度引數，區分度引數衡量專案區分受試者的能力。區分度引數值越高，表示專案區分受試者的能力越強。區分度引數值越高，表示當能力（潛在特徵）增加時，正確回答的機率上升得越快。圖2顯示了三個專案（專案1、專案2和專案3）在區分度引數值不同的情況下專案特徵曲線。

圖2：專案特徵曲線

這三個專案的難度引數值均為零。區分度引數的值分別為0.3、1和2。圖2顯示，隨著區分度引數值的增加，專案特徵曲線在零點附近變得更陡峭。對於比專案1難很多的專案3，當能力值從-0.5變為0.5時，正確回答的機率從0.3增加到0.7。因此，專案3比專案1更有效地區分能力值接近0的受試者。

等級反應模型

等級反應模型，通常稱為有序分類反應，是一組用於對反應進行評分的數學模型。與二分回答相反，模型回答具有分類有序資料；術語“特別有序”表示回答具有明確的等級或順序。

與二分回答相反，多分類回答細分為兩個以上次要部分或分支（即，具有兩個類別的回答）。
因此，等級反應模型用於模擬考試，其中結果的報告比簡單的“正確”或“錯誤”更詳細。

該等式作為等級反應模型的總結。

$\mathrm{p(x_{ij} = x_{ij}\rvert\theta_{i}) = p^*_{{xij}}(\theta_i) − p^*_{xij+1}(\theta_i)}$

其中

$\mathrm{p^*_{{xij}}(\theta_i) = p(x_{ij}\geq x_{ij}\rvert\theta_{i}) = \frac{e^{Daj(\theta_{i} − b_{xij})}}{1+e^{Daj(\theta_{i} − b_{xij})}}}$

θ代表潛在能力或特質，以及其在受試者中的實際水平。
$\mathrm{X_{ij}}$ 代表給出的等級。
$\mathrm{b_{jx}}$ 是特定於測試專案的常數；位置引數，或分數x的類別邊界；能力尺度上P = 0.5的點。
$\mathrm{a_{jx}}$ 是特定於測試專案的另一個常數，區分度引數，對於給定專案而言，在響應類別中是恆定的。
D是一個比例因子。

專案反應理論與經典測驗理論的比較

幾十年來，經典測驗理論 (CTT) 一直是構建心理量表和測試評分的基礎。經典測驗理論的一個缺點是專案和人員屬性（如專案難度引數和人員分數）是無法區分的。專案屬性可能因所考慮的亞群而異。如果考慮高能力亞群，所有測試專案似乎都很簡單。然而，對於低能力亞群來說，同一組專案會很難。這種限制使得使用各種測試格式評估個人的能力具有挑戰性。然而，在專案反應理論中，專案特徵和個人技能由不同的引數定義。一旦針對一個群體校準了問題，就可以直接比較來自該群體的受試者的分數，即使他們回答了專案的不同子集。一些學者稱之為專案反應理論模型的不變性。

其次，經典測驗理論中可靠性的定義是基於平行測驗的，這在實踐中很難實現。每個樣本中所有分數的測量精度都是相同的。根據傳統的測驗理論，較長的測驗通常比較短的測驗更可靠。然而，專案反應理論將可靠性定義為以測量的潛在結構分數為條件的函式。測量精度在潛在結構連續體中變化，並且可以推廣到整個目標人群。專案反應理論中經常使用資訊曲線來顯示測量精度。這些曲線可以被視為潛在因素的函式，作為專案引數的函式。它們可以計算單個專案（專案資訊曲線）或整個測試（測試資訊曲線）。測試資訊曲線可以用來評估測試的效能。在測試開發過程中，應確保所選擇的專案能夠在所需範圍的潛在結構連續體中提供適當的精度。

第三，在經典測驗理論中，缺失值在測試開發和受試者評分過程中難以處理。除非對這些缺失值進行估算，否則無法對具有一個或多個缺失響應的受試者進行評分。另一方面，專案反應理論模型的估計框架使得很容易檢查具有隨機缺失資料的專案。專案反應理論仍然可以根據所有可用資訊的可能性來校準問題和評分；專案反應理論程式中使用基於可能性的程式。

結論

預計專案反應理論將在未來取得進展，包括改進測量技術和對決策理論等重要領域的貢獻。專案反應理論技術值得從事心理評估的研究生、研究人員和從業人員的關注。可以使用BILOG、MULTILOG和PARSCALE等計算機程式進行專案反應理論分析。

Mukesh Kumar

更新於：2022年12月30日

820 次瀏覽

開啟你的職業生涯

完成課程，獲得認證

開始學習