專案特徵曲線


在過去的幾十年裡,教育測量取得了悄無聲息的革命。這場革命導致了現代化的專案特徵曲線理論,該理論由單引數模型(Rasch)和三引數邏輯心理測試模型表示。三引數邏輯心理測試模型和程式由 Lord (1952) 開發,他在職業生涯早期就致力於專案特徵曲線理論的研究。

專案反應理論和專案特徵曲線是什麼?

評估能力的典型方法是建立一個包含各種專案(問題)的測試。每個專案都評估目標能力的不同方面。從純粹的技術角度來看,這些問題應該是開放式問題,允許測試者提交任何合適的答案。根據傳統的測驗理論,測試者的原始測驗分數將是他們在測驗專案中得分總和。專案反應理論指出,與其關注測試者的整體測驗分數,不如關注他們是否正確回答了每個問題。

這樣,專案反應理論的基本思想就可以應用於具體的測試專案,而不是像測驗分數那樣對專案反應進行彙總。從實踐的角度來看,在測試中納入開放式問題具有挑戰性。它們尤其難以準確評分。因此,大多數專案反應理論測試都由選擇題組成。專案採用二分評分,即如果測試者的回答正確,則獲得一分;如果發現回答錯誤,則得零分。可以合理地假設,每個回答問題的測試者都具有一定的潛在能力水平。因此,可以認為每個測試者都擁有一個分數,該分數將其置於能力譜上的某個位置。

希臘字母 θ 將表示此能力分數。在每個能力水平上,都存在一個機率,即具有該能力的測試者會正確回答該專案。機率 P(θ) 將用於表示它。對於能力低的測試者,特定測試專案的此機率將很小,而對於能力高的測試者,此機率將很大。從繪製 P(θ) 作為能力函式得到一個光滑的 S 形曲線,如以下圖表所示。在最低的能力水平上,正確反應的機率幾乎為零。隨著能力水平的提高,它會增加,直到正確反應的機率接近 1。此 S 形曲線顯示了能力量表與給出正確答案的機率之間的關係。在專案反應理論中,它被稱為專案特徵曲線。每個測試專案都有一個獨特的專案特徵曲線。

專案特徵曲線的特性

專案特徵曲線有兩個技術特徵。可以使用這兩個描述符來描述專案特徵曲線的通用形式。第一個是專案的難度水平。根據專案反應理論,專案的難度表示它在能力量表上的位置。難度是位置指標,例如,容易的專案在能力低的考生中起作用,而複雜的專案在能力高的考生中起作用。第二個技術特性,區分度,解釋了專案在多大程度上能夠區分能力低於專案位置的考生和能力高於專案位置的考生。此特性表示專案特徵曲線中心區域的陡峭程度。隨著曲線的變陡,專案區分能力增強。曲線越平坦,專案的區分度越低,因為在低能力水平上正確反應的機率與在高能力水平上正確反應的機率大致相同。

專案難度

正確回答專案的百分比決定了專案的難度。需要注意的是,百分比越高,專案越簡單;60% 的受訪者正確回答的問題的 p(百分比)值為 .60。只有 10% 正確答案的難題的 p = .10。相反,90% 正確答案的簡單問題的 p = .90。並非每個考試專案都有正確的答案。

例如,態度、個性、政治觀點等的測試可能會向受訪者提供需要同意或不同意的主題,但尚未收到正確的答案。另一方面,大多數產品都有一個鍵控答案,如果支援該答案,則會獲得分數。例如,在焦慮量表上,對“你大部分時間都感到焦慮嗎?”的問題回答“是”可能被視為反映焦慮,並且將是鍵控答案。如果考試旨在評估“鎮定”,則對該專案的回答“否”可能是鍵控答案。因此,專案難度可能表示同意鍵控答案的人的百分比。

我們希望瞭解專案的難度水平,以便透過仔細選擇專案來開發具有不同難度水平的測試。一般來說,心理測量考試應該具有平均難度,平均難度定義為 p = .50。請注意,這會導致平均分數接近 50%,這似乎是一個很高的標準。這是因為 p = .50 提供了最具區分度的專案,代表了個體差異。考慮極難的專案(p = .00)或簡單的專案(p = 1.00)。此類專案在心理測量學上無關緊要,因為它們不代表人與人之間的任何差異。在不同個體給出不同反應的程度上,並且答案與某些行動相關聯,這些專案才有價值,因此最有用的專案的 p 接近 0.50。

但是,情況更加複雜。假設我們有一個算術測試,所有專案的 p 都為 .50。參加測試的孩子不太可能隨機作答;因此,如果 Johnny 做對了第 1 題,他很可能做對了第 2 題,依此類推。如果 Mark 忽略了第 1 題,他很可能忽略第 2 題,依此類推。這意味著至少在理論上,一半的孩子會做對所有題目,另一半會做錯所有題目,導致只有兩個原始分數,即零或 100——這是非常不理想的情況。為了解決這個問題,選擇平均難度值為 .50 但難度值範圍從 0.30 到 0.70 或類似值的專案。

專案區分度

如果我們有一個算術測試,測試中的每個專案都應該能夠區分了解主題的人和不瞭解主題的人。如果我們有一個抑鬱症測試,那麼每個專案都應該能夠區分有抑鬱症的人和沒有抑鬱症的人。專案區分度是指專案在適當“區分”在相關變數上得分較高和得分較低的個體方面的能力。對於大多數變數,我們通常不假設二分法,而是假設連續變數。也就是說,我們不認為世界上只有兩種人,即抑鬱和非抑鬱,而是認為不同的人可以表現出不同程度的抑鬱。

還有其他計算專案區分度指標的方法。但是,大多數方法都非常相似,並且涉及比較每個專案的得分較高者與得分較低者的表現。例如,假設我們已經給 100 名兒童進行了算術考試。我們有每個孩子的測試總原始分數以及他們在每個專案上的表現記錄。為了計算每個專案的專案區分度指標,我們必須首先定義“得分較高者”與“得分較低者”。

我們可以獲取所有 100 名兒童,計算其整體測試結果的中位數,並將得分高於中位數的人識別為得分較高者,將得分低於中位數的人識別為得分較低者。這種方法的優點是我們使用了所有資料,即所有 100 個過程。缺點是在分佈的中間有很多“噪聲”。考慮莎拉,她的得分略高於中位數,被歸類為高分者。如果她重新參加考試,她的得分可能會低於中位數,並被標記為低分者。

在頻譜的另一端,我們可以將得分最高的五名兒童歸類為高分者,將得分最低的五名兒童歸類為低分者。這裡的優點是,這些極端分數在重新測試時不太可能發生重大變化;它們很可能不是猜測的結果,最有可能代表“現實生活”中的聯絡。缺點是我們現在擁有相對較小的樣本,需要確保我們的計算確實穩定。是否存在一個折衷方案,一方面最大限度地減少“噪聲”,同時最大限度地提高樣本量?凱利 (1939) 多年前表明,最佳方法是選擇上 27% 和下 27%,而小的變化,例如 25% 或 30%,影響不大。

專案反應理論和專案特徵曲線的應用

它包括

自適應測試 - 計算機自適應測試是專案反應理論的重要且有趣的應用之一。如果每個專案的難度水平與該人的能力相匹配,則測試對於任何個人來說都是最準確的。專案反應理論可用於幫助修改不同測試者的考試。當一個人在計算機終端參加考試時,他們可以在每個測試步驟中估計其能力水平,然後選擇下一個專案以匹配該能力水平。例如,自定義測試中的第一個問題可能相對具有挑戰性。如果考生通過了該問題,則機器可能會為測試的第二個專案選擇更具挑戰性的問題。如果考生未能透過該專案,則可能會選擇一個不太具有挑戰性的專案作為下一個專案。

篩選測試 − 篩選測試用於確定初步結果,或候選人是否擁有超過職位所需知識或技能。可以使用專案反應理論來研究篩選測試。考慮一個測試,以剔除醫學院候選人池中最低一半的申請人。在學校想要做出區分的能力分佈點上,曲線會很陡峭,低分組正確回答問題的機率很低,而高分組正確回答問題的機率則很高。這些可以包含在一個簡短且有價值的測試中,用於此初始篩選。

結論

在教育和心理測試中使用專案特徵曲線 (ICC) 可以帶來諸多好處。ICC 透過直觀地展示專案難度與正確反應機率之間的關係,使理解和分析專案的表現變得更加簡單。這有助於識別難題,例如過於簡單或過於困難的專案,並確定哪些專案最能區分不同能力水平的人。ICC 可以幫助指導專案替換或修訂的決策。透過查詢需要修改的專案並根據曲線的形狀改進其心理測量特性,可以提高測試的信度和效度。

更新於: 2023年2月14日

1K+ 閱讀量

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.