測試的可靠性,通常通過衡量兩個分數之間的相關系數來體現,這個系數越大,測試的信度也就越高。當相關系數達到1.00時,代表測試的絕對可靠;而系數為0.00,則意味著極低的信度。在實際應用中,相關系數通常介於兩者之間,具有一定的范圍。對於標准化測試,如托福,其信度標准通常要求在0.90以上,例如托福的信度大約為0.95。課堂測試的信度要求則相對較低,一般在0.70到0.80之間被視為可接受。
評估信度的方法有很多種,這里介紹三種常用的:重測法,即在兩個不同時間點使用同一份試卷對同一群人進行測試,計算兩次得分的相關系數。盡管第二次測試由於學習進步和經驗增加,得分可能提高,但測試的可靠度體現在受試者排名的穩定性上,如果試題可靠,排名應大致不變。
交替形式法,是使用兩套題目類型相同但具體題目不同的試卷,對同一組人進行兩次測試,計算兩次得分的相關系數。這種方法旨在考察測試內容的穩定性。
最後,對半法,即只做一次測試,但將試卷分為兩半,分別計分,然後通過Spearman-Brown公式計算信度。具體步驟是:將兩組分數的相關系數乘以2,再除以1加上這兩組系數的總和。