可靠性度量:含義和方法
可靠性是指任何有意義的研究結果都應該可重複。其他研究人員必須能夠在相同條件下進行相同的實驗併產生相同的結果。這將支援研究結果並確保所有研究人員都接受該理論。如果沒有這種統計學意義上的結果重複,則實驗和研究就沒有完全滿足可檢驗性的先決條件。為了使假設成為公認的科學真理,必須滿足此條件。通常認為儀器能夠保持真實和準確的時間,並且是可靠的。
然而,為了降低故障的可能性並保持資料有效性和可靠性,科學家會重複進行測量。另一方面,任何依賴於人為判斷的實驗都將始終受到質疑。個體觀察者可能會根據一天中的時間和他們當前的情緒以不同的方式判斷事物,這使得人為判斷變得不可預測。這意味著此類實驗本質上不太可靠,而且難以重複。為了評估實驗的整體有效性並加強結論,可靠性是一個至關重要的組成部分。
什麼是可靠性?
可靠性是指測量的穩定性或儀器在相同條件下、對相同個體重複使用時每次測量方式的一致程度。簡而言之,它是測量的可重複性。如果一個人在同一測試中進行兩次測試的分數相似,則該測量被認為是可靠的。必須記住,可靠性不是測量的,而是推斷的。例如,如果一項測試旨在評估某一特定特徵,例如神經質,則它應該在每次執行時都產生一致的結果。如果多次獲得相同的結果,則該測試被認為是可靠的。
可靠性估計方法
有幾種方法可以估計儀器的可靠性。各種程式可以分為兩類:
外部一致性程式
內部一致性程式
外部一致性程式
外部一致性程式將來自兩個獨立資料收集過程的結果相互比較,以驗證測量的可靠性。
重測信度
確定測試可靠性的最常用策略是在兩個時間段內對同一樣本進行相同的測試。在此示例中,可靠性係數是同一個人在兩次測試管理中獲得的分數之間的相關性。當對同一被評估者進行相同的測試時,會評估重測信度。因此,它指的是測試在兩個獨立時間段和管理中的前後一致性。此策略基於這樣的前提,即所討論的結構的測量在多次管理後將保持不變。測量之間的時間間隔至關重要;時間間隔越短,相關值越好,反之亦然。如果測試可靠,則第一次管理獲得的分數應等於第二次管理獲得的分數。兩次管理之間的關係應該是正相關的。
平行形式信度
平行形式信度、備擇形式信度、相似形式信度和可比形式信度都是信度的術語。平行形式信度比較兩種等價的測試形式,這些測試形式評估相同的屬性。兩種形式中使用的專案是不同的。但是,選擇特定難度級別的專案的準則相同。當兩種考試版本可用時,可以將其中一種的成績與另一種的成績進行比較。有時,兩種形式在同一天給同一組人。
皮爾遜積矩相關係數被用作可靠性的估計。當兩種考試版本可用時,可以將其中一種的成績與另一種的成績進行比較。兩種形式在同一天給同一組人。作為可靠性的估計,使用皮爾遜積矩相關係數。當兩種考試版本都在同一天進行時,差異的唯一原因是隨機誤差和考試形式之間的差異。
這兩種測試形式有時在不同的時間進行。在這種情況下,與時間抽樣相關的誤差也包含在可靠性估計中。平行形式的方法是廣泛使用的最嚴格的可靠性檢驗之一。不幸的是,平行形式的使用頻率低於理想水平。
不幸的是,平行形式的使用頻率低於理想水平。測試工程師有時很難建立同一測試的兩個版本,而且實際限制使得對同一組人進行重新測試變得很困難。另一方面,許多測試開發人員根據特定型別的測試來估計或確定其可靠性。心理學家有時會準備兩種測試版本,他們經常只有一種測試形式,並且必須評估特定專案集的可靠性。有幾種方法可以評估單個測試內的各種差異原因。一種方法是將測試分成子部分並檢查其內部一致性。
內部一致性程式
內部一致性程式背後的理念是,測量相同現象的專案應該產生相似的結果。以下內部一致性程式通常用於估計可靠性:
備擇形式法
等價/平行形式方法,也稱為備擇形式方法,廣泛用於教育、推廣和發展研究,以確定各種測量工具的可靠性。它也需要與重測方法相同的測試環境和人員。但是,它與重測方法在一種關鍵方面有所不同:第二次測試沒有使用相同的測試,而是使用了相同測試的備擇形式。因此,兩份可比的閱讀考試應包含複雜程度相同的閱讀文章和問題。但是,個別文字和問題應該不同,這意味著該方法有所不同。建議將兩種形式間隔大約兩週進行,以考慮個人每天的變化。兩種形式之間的相關性將提供合適的可靠性係數。
折半法
折半法是另一種常用的方法,用於檢查測量工具的內部一致性可靠性。在折半技術中,進行測試,將其分成兩半,並分別進行評估。將測試的一半的分數與另一半的分數進行比較,以評估可靠性。首先在折半方法中將考試分成兩半。最常見的方法是將奇數專案分配到測試的一側,將偶數專案分配到另一側,稱為奇偶信度。第二,使用皮爾遜 r 方法確定兩半分數之間的相關性。第三,使用斯皮爾曼-布朗公式調整或修改相關性,這進一步提高了估計的可靠性。
可靠性估計量的比較
所有可靠性估計量都有優點和缺點,例如:評分者間信度最適合於測量包含觀察的情況;但是,需要多個觀察者;或者,可以考慮單一觀察者在單一場合重複進行的評分。如果評估者希望使用一組評分者,也可以使用它。平行形式估計量最適合於將兩種形式用作相同現象的替代測量。但是,這與內部一致性可靠性測量一樣,都存在限制,因為必須建立多個專案來評估相同的結構。
克朗巴赫α係數在專案數量眾多時很有用。重測信度通常用於實驗和準實驗方法。這也取決於控制組的可用性,在兩個不同的日期進行評估。只有在進行後測時,才能獲得有關可靠性的資訊。因此,每個估計量都會對可靠性產生不同的估計。由於在不同時間或與多個評分者進行測量,因此重測信度和評分者間信度估計通常不如平行形式和內部一致性有價值。
如何提高可靠性?
有兩種方法可以提高測量工具的可靠性。
透過標準化測量條件,我們必須確保最大程度地消除外部差異原因(如厭倦、疲勞等),以提高穩定性方面。
透過仔細制定從一組到另一組一致的測量說明,透過使用熟練且積極的研究人員,以及透過擴充套件用於提高等價性的專案樣本。
結論
在心理測試中,信度指的是測量一致性的屬性。信度有幾個層次。為了評估心理測試分數的一致性,可以使用皮爾遜積差相關係數。這種型別的信度被稱為重測信度。複本信度是透過將給予一大群多樣化參與者以平衡方式給出的兩種可比表格上的分數聯絡起來計算的。分半信度(其中將一半測試的結果聯絡起來)和係數α(可以將其視為所有潛在分半係數的平均值)是兩種內部一致性信度方法。對於涉及審查員判斷以授予分數的考試,需要評分者間信度。