心理測試的效度


測試效度的概念主要關注測試的“根本誠實”——誠實是指測試做到了它聲稱要做的事情。這是對既定目標與所做努力、所使用方法以及這些努力和方法所取得成就之間聯絡的根本關注。更具體地說,效度是指工具衡量其所應衡量內容的程度。

測試的效度

根據Goode和Hatt的說法,當測量工具(量表、測試等)真正測量其承諾測量的內容時,它就具有效度。效度主題在發展研究中複雜且至關重要,因為在這裡,比其他任何地方更需要對現實的本質提出質疑。

在不深入研究變數的性質和意義的情況下,研究可靠性是可行的。在測量某些生理特徵和人的相對簡單的品質時,效度不是問題。學齡前兒童的體型測量,如頭圍和胸圍,可以使用精度為特定釐米或英寸的測量工具進行測量。

假設一位兒童發展推廣專業人員希望研究營養不良與學齡前兒童智力發展之間的關係。在這種情況下,沒有規則可以衡量營養不良的程度,也沒有任何量表或明確的生理特徵可以衡量智力發展。在這種情況下,設計間接測量某些屬性的方法至關重要。這些方法通常非常間接,以至於測量的有效性和其產品的有效性受到質疑。

測量工具效度的途徑

每個測量工具,為了有用,必須具有一定的效度指標。有四種測量工具效度的途徑:

  • 邏輯效度/表面效度

  • 專家意見

  • 已知群體

  • 獨立標準

邏輯效度

這是最常用的方法之一。它與理論或常識分析有關,該分析簡單地發現,鑑於這些因素,連續體的性質不可能是其他任何東西,而只能是所陳述的內容。邏輯效度,也稱為表面效度,幾乎總是被採用,因為它自然地源於對連續體的細緻描述和專案的選取。

具有邏輯/表面效度的測量直接關注測試者感興趣的行為型別。例如:解決數學問題的能力透過成功解決這類問題的樣本進行測試,而閱讀速度則透過計算一個人在一定時間內理解地閱讀了多少章節來衡量。雖然存在侷限性,但僅僅依靠邏輯和常識確認是不謹慎的。這種效度說法充其量是推測性的,很少是確定的。除了邏輯正確性之外,還需要有效地使用測量工具。

專家意見

這是邏輯效度方法的擴充套件,只是在這種情況下,推理得到了該測量工具使用領域的專家組的證實。例如,如果開發一個評估學齡前兒童智力遲滯的量表,可以組建一個由心理學家、精神科醫生、兒科醫生、臨床心理學家、社會工作者和教師組成的專家組來確定該量表的效度。但是,存在限制。專家也是人,這種方法只能導致邏輯上的合理性。因此,專家評判效度只比邏輯效度略好。

已知群體

這是邏輯效度方法的擴充套件,只是在這種情況下,推理得到了該測量工具使用領域的專家組的證實。例如,如果開發一個評估學齡前兒童智力遲滯的量表,可以組建一個由心理學家、精神科醫生、兒科醫生、臨床心理學家、社會工作者和教師組成的專家組來確定該量表的效度。

但是,存在限制。專家也是人,這種方法只能導致邏輯上的合理性。因此,專家評判效度只比邏輯效度略好。除了他們已知的宗教實踐外,群體間的其他差異也可能導致量表分數的差異。

獨立標準

雖然這是一個很好的理論策略,但其實踐通常是有問題的。標準測量應該具有四個特徵。它們按重要性遞減的順序排列:

  • 相關性 - 如果標準測量中的等級與量表分數相符,我們認為標準是相關的。

  • 無偏差 - 這意味著該指標應該是每個人都有相同機會獲得好成績的指標。偏差變數包括製造工人的裝置或工作條件的質量差異以及不同班級學生的教育質量差異。

  • 可靠性 - 如果標準分數每天波動,以至於一個星期表現好的人下個星期可能表現差,或者一個從一位主管那裡獲得好評的人從另一位主管那裡獲得差評,那麼就沒有辦法建立能夠預測該分數的測試。沒有任何其他東西可以預測本身完全不穩定的測量。

  • 可用性 - 最後,在選擇標準測量時,我們總是面臨便利性和可用性的實際問題。

任何選擇的標準測量都必須有一個現實的限制來解釋。但是,當獨立標準良好時,它就成為一個強大的工具,並且可能是最成功的效度驗證程式。

影響效度的因素

許多因素會影響評估工具的效度。Gronlund (1981) 提出了以下因素:

測試本身的因素

每個測試都有題目。對測試題目的詳細檢查將揭示測試是否似乎評估了教師希望評估的學科內容和心理功能。測試中的以下問題會阻礙測試題目正常發揮作用並降低效度。

  • 方向不明確 - 如果學生需要幫助理解如何解答題目,是否允許猜測以及如何記錄答案,則效度會受到影響。

  • 閱讀術語和句子結構的難度 - 為參加考試的學生設計的複雜的語言和短語結構可能會干擾對兒童表現要素的衡量,從而降低效度。

  • 測試題目難度不足 - 當測試題目的難度不合適時,工具的效度就會受到影響。例如,在標準參照測試中未能達到學習結果規定的難度會降低效度。

  • 試題準備不足 - 包含意外答案提示的試題往往會評估學生識別線索的能力以及最終影響效度的學生表現因素。

  • 含糊不清 - 測試專案陳述中的含糊不清會導致誤解、相互矛盾的解釋和混淆。它有時會比差生更讓好學生感到困惑,導致負向區分。因此,測試的效度受到影響。

  • 測試題目不適合所測量的結果 - 通常會嘗試用僅適用於測試事實資訊的測試形式來評估一些複雜的成就、理解、思維、能力等型別。

內容功能和教學程式

在績效評估中,測試題目的內容功能不能僅僅透過檢查測試的設計和內容來識別。在將問題納入測試之前,教師必須徹底講解如何解決問題。如果測試題目按計劃執行,則複雜的學習結果測試是有效的。假設學生之前有解決考試中包含的問題的經驗。在這種情況下,此類測試不再可靠地用於評估更復雜的心理過程,其效度因此受到影響。

測試管理和評分中的因素

測試管理和評分方法也可能影響結果解釋的效度。例如,在教師編制的考試中,諸如時間不足以完成考試、對特定學生提供不公平的幫助、考試作弊以及論文答題評分錯誤等變數可能會降低效度。同樣,在標準化考試中,不遵守常規指示和時間、未經授權地幫助學生以及評分錯誤會降低效度。無論是教師編制的測試還是標準化考試,測試期間令人不快的身體和心理環境都可能影響效度。

學生反應中的因素

某些個人特質會影響學生對考試情境的反應,導致測試結果解讀不準確。情緒低落、缺乏動力或對考試場景感到恐懼的學生可能無法正確作答,從而影響測試的效度。作答方式也會影響測試結果。學生的得分受其考試習慣的影響。作答模式是指持續傾向於以相似的方式反應測試專案。

群體性質與效標

先前已指出,效度總是針對特定群體而言的。年齡、性別、能力水平、教育經歷和文化背景都會影響測試結果。因此,測試手冊中應註明效度驗證群體的型別。

計算效度係數時,另一個關鍵的考慮因素是所用效標的性質。例如,科學能力測試的得分很可能對環境學課程的成就提供更準確的預測。在其他條件相同的情況下,效度係數越高,測試評估的績效與效標所示績效之間的相似性就越大。

結論

一項測試在多大程度上測量了其承諾測量的方面,這被稱為其效度。如果測試的結論合適、可理解且有價值,則該測試是有效的。實驗室外的事件、成熟、測試效應、迴歸效應、選擇和死亡都會影響實驗的內部效度。源於對其他受試者、時間範圍或情境的概括化的問題是外部效度威脅的例子。可以透過阻止實驗者瞭解實驗的情況或目的,並儘可能標準化流程來減少實驗者偏差。

更新於:2023年2月13日

2K+ 次瀏覽

啟動您的職業生涯

完成課程獲得認證

開始
廣告