少數族裔群體測試偏差
心理學家在各種情境中出於各種目的使用測試和評估,包括但不限於工作安置、診斷心理疾病以進行心理健康治療、核實健康保險範圍、進行市場調研焦點小組、為法律決策和政府政策提供資訊以及制定可靠評估人格特徵的措施。
美國心理學會 (APA) 的《心理學家倫理原則和行為規範》(2002) 和《教育和心理測試標準》為對種族/民族少數群體進行心理測試和評估的道德行為提供了指導。
測試偏差
與美國教育研究協會、美國心理學會和全國教育測量委員會類似,測試偏差被定義為維度上的系統性錯誤,並體現了這樣一個概念:存在一些與結構無關的因素會影響所考察群體的維度高階或低階分數。因此,偏差是在特定語境下使用的。偏差是維度過程中的一種系統性不準確性,它對相關群體的影響不同。測試中的偏差可能是內部的(心理測量成分、測試結構)或外部的(歧視性抽樣/選擇)。此外,內部和外部偏差可能同時存在於同一個測試中。
測試偏差型別
以下是測試偏差的一般類別:
結構效度偏差 - 這指的是測試是否直接測量了其設計目標。例如,在一項智力測試中,正在學習英語的學者可能會遇到他們尚未學習的單詞。因此,測試結果可能反映出他們相當薄弱的英語能力,而不是他們的學術或智力能力。
內容效度偏差 - 當測試的內容對一組學者比對其他學者相對更難時,就會出現這種偏差。例如,當學生群體(例如不同年齡組)沒有獲得相同的學習測試材料的機會時,當評分對某個群體不公平(例如,在一個群體的文化中講得通的答案被認為是不正確的)時,或者當問題以對某些學者來說由於語言或文化差異而顯得陌生的方式表達時,就會出現這種情況。作為這種偏差的一個子類別,專案選擇偏差是指個別測試專案更適合一個群體的語言和文化行為。
預測效度偏差(或標準相關效度偏差) - 這指的是測試預測特定學生群體未來表現的準確性。例如,如果一個測試對所有學生群體預測未來的學術和考試表現同樣準確,則該測試被認為是“無偏見的”。測試偏差與測試公平問題密切相關——即,測試結果的社會影響是否會對某些學生群體產生不公平的優勢或劣勢?
少數族裔群體的測試偏差
涉及少數民族的評估過程存在多種可能產生偏差的途徑。這種偏差可能是由於文化或種族以及少數民族群體地位的差異造成的。儘管文化有許多定義,但它通常指的是一個社會的行為模式、符號、制度、價值觀和人為產物。另一方面,種族可以用來描述一個種族、民族或文化群體。一個人的種族通常傳達一種社會文化意義上的“民族認同感”,群體成員共享一種代代相傳的社會和文化遺產。
此外,種族群體成員經常感受到與群體中其他成員的命運相互依賴。除了文化和種族之外,少數民族群體成員還會經歷少數民族群體地位,這涉及到種族或種族關係的歷史。這段歷史影響了人際關係、前景和表現。因此,為了完全理解少數民族群體、他們的反應和評估過程,必須剖析文化、種族和少數民族群體地位。對測試和測量偏差的關注不僅僅是“政治正確”的問題,也不是少數民族因他們在各種測試和測量中的表現而感到不滿而永恆化的問題。偏差確實存在於我們的許多評估工具和程式中。
當測試專案是從排他性的角度編寫的,從而使其他學生群體處於不利地位時,就會發生評估偏差。當測試包含維護偏見或歧視或貶低其他群體的專案時,該專案被認為是有偏見的。例如,像“一毛不值”這樣的表達就可能影響使用不同貨幣或英語不流利的群體。評估偏差不僅包括測試專案,還可能由於參加測試的學生群體、環境或測試設計方式而產生。
如果評估在沒有考慮學生對文化傳統的理解的情況下不公平地衡量學生的技能和知識,則會發生測試中的文化偏差。當評估沒有考慮學生的文化差異時,它們未能直接衡量學生的才能,並可能導致基於不準確資料的結論。當註釋者或測試材料沒有考慮學生在一個特定文化群體中對語義和經驗的缺乏瞭解時,就會發生測試中的文化偏差。
測試中文化偏差的影響是,來自少數民族文化背景的學生不成比例地被納入特殊教育服務。此外,在衡量語言能力時,學生可能會被錯誤地貼上障礙的標籤,因為測試結果表明存在語言障礙。然而,資料差異可能是由於文化差異造成的。文化測試偏差的主要特點是,測試是由一群同質的人組成的,他們不能代表參加測試的學生的文化多樣性。此外,測試本身也可能由於測試專案的內容、測試的格式或進行評估的環境而存在文化偏見。
測試中文化偏差的一個影響是透過將資料不公平地表示為智力或能力的暗示來維持不公平的概念。結果,測試結果不公平地衡量有色人種學生,當錯誤在於有偏見的測試而不是提供學生能力的準確衡量時,他們的分數較低。結果,有色人種學生被安置在特殊教育專案中的比例過高。同樣,有偏見的標準化測試加劇了對邊緣化人群和良好學術成就前景的誤解。
減少測試偏差的步驟
鑑於測試結果在對學生做出重要決定時仍然被廣泛使用,測試開發者和專家們已經聯絡了幾種策略,這些策略可以減少,甚至消除測試偏差和不公平。許多具有代表性的例子包括:
在測試開發人員中尋求多樣性,並培訓測試開發者和編寫者,讓他們意識到文化、語言和社會經濟偏差的可能性。
讓接受過識別文化偏差培訓的專家以及來自不同文化和語言群體的代表審查測試材料。
確保用於開發常模化測試的常模化過程和樣本量包含不同的學生群體,並且足夠大以構成具有代表性的樣本。
禁止產生最大種族和文化績效差距的專案,並選擇產生最小差距的專案——一種被稱為“黃金法則”的方法。(然而,鑑於任何給定測試人群中可能代表的種族、民族和文化群體的數量,這種特定策略在邏輯上可能難以實現)。
搜尋並禁止可能更容易冒犯某些群體的專案、參考資料和術語。
將測試改寫成測試者的母語,或使用從業人員改寫測試專案。
包括更多“基於表現”的專案,以限制語言和詞語選擇在測試表現中所起的作用。
使用多種評估方法來確定學生的學業成就和進步,避免僅依靠考試成績來做出關於學生的重大判斷。
結論
儘管智力測試作為一種量化工具具有科學和精確的特性,但它卻是一種帶有文化偏見的程式,導致對少數群體,特別是少數族裔學生存在歧視。在公立學校中持續使用的兩種最常見的測試——學業成就測試和智力測試——都假設所有測試者都具有相同的、被測試題目所考察的行為能力。它們還假設全國的學校教育水平一致,並且所有參加測試的人都具有相同的英語語言能力。這種文化偏見還受到其他因素的影響,例如題目選擇過程、題目的內容以及被認為是這些題目可接受的答案。