A. 如何選擇一個良好的心理測驗工具
建議不要自己施測,要在專業人員的指導下使用心理測驗……且測驗不是萬能的,不要盡信測驗哦……O(∩_∩)O~
一、測驗的選擇
測驗的選擇是使用測驗的前提之一。選擇測驗必須注意兩個方面。
(一)所選測驗必須適合測量的目的
測驗是進行科學研究和解決實際問題的一個工具,測驗的選擇首先必須符合我們使用測驗的目的。由於每一個測驗都有其特殊的用途和使用范圍,所以測驗使用者首先要對各種測驗的功用及特長、優缺點有一個了解。不但不同的目的要選用不同的測驗,而且不能只是根據測驗名稱盲目地選擇測驗。必須了解該測驗的真正適用范圍和功效,否則就會造成測驗使用不得當。
(二)所選測驗必須符合心理測量學的要求
選測驗不能僅根據測驗目的,還應考慮該測驗是否經過了標准化,它的信度、效度如何,常模樣本是否符合你的測試對象,常模資料是否太久而失效,等等。
所謂信度,是指測量的一致性程度。一個好的測量工具必須穩定可靠,即多次測量的結果要保持一致,否則便不可信。效度指的是測量的正確性。效度所要回答的基本問題是:一個測驗測量什麼特性?它對所要測量的特性測得有多准?
何謂常模?在心理測驗中,通常根據一個人在所比較的團體內的相對等級來報告他的成績,這里用來做比較的參考團體叫常模團體,常模團體的分數分布就叫常模。
在現實生活中,許多人將一些通俗讀物或報刊雜志上的測驗當作正式的心理測驗來使用,實際上這些測驗大多不符合心理測量學的要求,可信度不大,僅是供娛樂消遣之用,但許多人卻十分信服。即使是真正的心理測驗,倘由個人自行施測,不懂得分數如何解釋,也會產生不良後果。例如,有人通過一些書籍上的測驗自行對照,判斷自己是神經症,因而終日惶恐不安。因此,不具備心理測驗知識的個人最好不要自己盲目選擇測驗及自行施測、解釋,而應由在專門的心理測驗機構中接受過專業訓練的人員來操作。
在選擇測驗這一環節上,出現的另一個問題是,許多人常使用沒有重新標准化的經典測驗。標准化測驗必須經常修訂,使測驗內容、常模樣本、分數解釋更符合變化了的時代。目前,就連許多專業人員使用的測驗也大多是許多年前的老版本。更有甚者,有人還將國外的測驗直接譯過來使用,而不考慮是否符合我國國情,這種做法是不值得提倡的。
二、測驗的施測與評分
(一)准備
測驗前的准備工作是保證測試順利進行和測驗實施標准化的必要環節。准備工作主要包括以下幾個方面。
1. 預告測驗
事先應當通知受測者,保證受測者確切知道測驗的時間、地點、內容範圍、試題的類型等,使受測者對測驗有所准備,及時調整自己的情緒和生理狀態。心理測驗一般不搞突然襲擊。當然,根據需要有時可以不告知真實目的。
2. 施測者自身的准備
施測者首先要熟悉測驗指導語並能流利地用口語說出來,這是對心理測驗實施的最基本的要求。熟悉指導語會使測驗進行得順利,否則,測驗的效果會受到一些影響。
其次,施測者還必須熟悉測試的具體程序。測驗的實施並不僅僅是分發、收集試卷,對於某些個別測驗和團體測驗來說,測驗的實施必須由受過專門訓練的人來完成。例如,韋氏智力量表包括言語、操作兩大部分,操作部分的測試涉及到物體如何擺放、如何示範等具體程序;而針對聾啞兒童使用的希內學習能力測驗更為復雜,甚至包括手勢語的應用;某些團體施測還涉及幻燈顯示的問題。施測者的訓練,通常包括講解或閱讀測驗手冊、觀察演示和操作練習等。這種訓練根據測驗的種類及施測者的條件,時間長短可以不同。
最後,施測者必須做好應付突發事件及受測者提問的心理准備。例如,智力測驗過程中,學生由於過分緊張而暈倒或夏季中暑,精神病人突然發作,有人作弊或突然停電,等等。這些都需要施測者有良好的心理准備,並有一些應急措施。
3. 測驗材料的准備
測驗材料包括測驗題目、答卷紙、記分鍵、指導書、紙、筆及計時表等必需材料、工具。同時,施測者還應當詳細地模擬一遍測驗,以觀察材料是否准備齊全。
4. 測驗環境的准備
心理測驗對環境的要求很高。許多研究表明,測驗環境會對測驗的結果造成影響。例如,一個人在酷暑和正常天氣下所做的智力測驗的結果會有差別。因此,施測者必須對測驗時的光線、通風、溫度及噪音水平等物理條件做好安排,統一布置。測驗房門上最好有牌子,示意測驗正在進行,不許隨便進入。
(二)施測
選擇好測驗並做好充分准備後,就可以施測了。實施標准化測驗的基本原則是努力減少無關因素對測驗結果的影響。對於標准化的測驗,施測者必須按照規定的程序施測,才能得到可靠的結果。有些人在使用測驗時,由於不了解測驗標准化的意義及方法,因此往往任意變更施測的程序,忽視測驗實施的各種要求(例如指導語、記分方法等),而導致結果的誤差。
1.指導語
指導語一般是指對測驗的說明和解釋,有時包括對特殊情況發生時應如何處理的指示。在實施測驗時,必須使用統一的指導語。
指導語通常包括兩部分,一部分是對受測者的指導語,另一部分是對施測者的指導語。
在紙筆測驗中,對受測者的指導語一般印在測驗的開頭部分,由受測者自己閱讀或施測者統一宣讀。指導語應力求清晰、簡明扼要且有禮貌。一般由以下內容組成:
(1)如何選擇反應形式(畫、口答、書寫等);
(2)如何記錄這些反應(答卷紙、錄音、錄像等);
(3)時間限制;
(4)如果不能確定正確反應,應如何去做(是否允許猜測等);
(5)例題(當測驗採用陌生形式時,例題是必要的);
(6)有時告知測驗目的。
施測者念完指導語後,應再次詢問受測者有無疑問。回答時應當嚴格遵守指導語,不應對測驗作出額外的解釋,因為施測者的暗示會對受測者產生影響。對受測者的指導語應簡短,不能佔用太長的時間,以免引起受測者的焦急及反感情緒。
對施測者的指導語主要是對測試細節的進一步說明,以及在測驗中途發生意外情況(如停電、遲到、生病、作弊等)如何處理等。這部分指導語往往印在測驗指導書中,對施測者的一言一行都作了嚴格要求。
總之,指導語對受測者的反應態度、反應方式及施測者的行為方式、說話方式作了嚴格的規定。
2.時限
時限也是測驗標准化的一項內容。施測者應事先告訴受測者該測驗具體的時間限制。對於有分測驗的測驗,施測者應根據有關時限的操作語執行。例如在速度測驗中,尤其要注意時間限制,不得隨意延長或縮短。
(三)記分
記分的標准化關鍵是使評分的方法盡量客觀化,使得不同評分者對同一測驗反應(答案)賦予相近的分數。許多測驗採用選擇題等客觀題型,無疑使記分更簡便、客觀。一些標准化測驗配有記分鍵,即標有標准答案及正確反應的模板,或者採用光電閱讀機記分,對於論文式作答的測驗則給予記分要點。標准化的記分方法應力求客觀、准確、經濟、實用。
施測者在實施過程中,記分應當做到下面幾點。
(1)對受測者的反應給予及時而清楚、詳細的記錄,特別是對口試和操作測驗,此點尤其重要,必要時可錄音和錄像。對於測驗的環境及測驗時的一些突發事件,施測者也應給予詳細記錄,以供解釋時參考。
(2)施測者應當熟練掌握記分鍵,特別是非客觀題目的記分要求,不得隨意記分。標准化測驗在手冊中都有關於記分原則和方法的說明。例如,在韋氏智力測驗中,對於什麼樣的反應得1分、2分、3分都有詳細解釋,並舉了一些例子。作為施測者,應當以客觀、公正的態度嚴格依據記分鍵或評分標准記分。
(3)在施測的過程中,對於受測者的反應,施測者不應做出點頭、皺眉、搖頭等暗示性的反應,這會影響受測者後面的測試。施測者應時刻保持和藹、微笑的態度。另外,在個別施測時,施測者不應讓受測者看見記分,可用紙板等物品擋著。這樣做一是避免影響受測者的測驗情緒,二是避免分散受測者的注意力。
三、測驗分數的解釋與報告
施測者對測驗結果可依據常模或其他參照標准作出解釋。一般在測驗手冊中對於各種分數的意義都作了詳細的說明。
(一)分數的轉化
施測之後,將受測者的反應與答案作比較即可得到每個人在測驗上的分數。這種直接從測驗上得到的分數叫做原始分數。原始分數本身沒有多大意義。譬如,某位學生成績單上寫著數學85 分、語文80分,由此並不能看出他成績的好壞,也不能看出他哪一門學得更好。為了使原始分數有意義,同時為了使不同的原始分數可作比較,必須把它們轉換成具有一定的參照點和單位的測驗量表上的數值。通過統計方法由原始分數轉化到量表上的分數叫做導出分數。有了導出分數,才可以對測驗結果做出有意義的解釋。
根據解釋分數時的參照標准不同,可以將導出分數分為常模參照分數與標准參照分數兩大類。
1. 常模參照分數
常模參照分數是把受試者的成績與具有某種共同特徵的人所組成的有關團體作比較,即根據一個人在常模團體內的相對位置來報告他的成績。制定常模需要三步:確定有關的常模團體;獲得該團體成員的測驗分數;把原始分數轉化為量表,該量表能把個人分數表示成在團體內的相對位置。
常用的常模參照分數有以下幾種。
(1)發展量表
發展量表分為年齡量表和年級當量。一個學生在年齡量表上所得的分數,代表他的心理年齡。例如,一個孩子的智齡為5歲,表示他的智力達到5歲孩子的水平。所謂年級當量,是把學生的測驗成績與各年級學生的平均成績比較,看他相當於幾年級的水平。
(2)商數
1916年推孟修訂的斯坦福—比奈量表中採用了智商的概念。智商(IQ)被定義為智齡(MA)與實際年齡(CA)之比。為避免小數,將商數乘以100。與智商類似的還有教育商數(EQ)和成就商數(AQ)等。
(3)百分等級
一個分數的百分等級可定義為在常模團體中低於該分數的人數百分比。等級越低,個體所處的地位越差。
(4)標准分數
標准分數是將原始分數與平均數的差距以標准差為單位表示出來的量表。標准分數分為兩類:線性轉換的標准分數和常態化的標准分數。線性轉換的標准分數,是將某人的原始分數減去常模團體的平均分,其差數再除以標准差即得。常態化的標准分數,先把原始分數轉化為百分等級,然後從正態曲線面積表中查得對應的標准分數。根據正態曲線面積表得到的標准分數是個理論值,它與線性轉換得到的標准分數有區別。原始分數越接近正態,常態化標准分數與線性導出分數就越接近。
2.標准參照分數
一種標準是對測驗所包括的材料熟悉或掌握的程度,將分數與此種標准比較可以搞清一個人知道什麼和能做什麼。因為涉及的主要是測驗的內容,所以把這種分數叫做內容參照分數。另一個比較標準是用預期的效標成績來解釋測驗分數,因為涉及的是後來的結果,所以把這種分數叫做結果參照分數。
(二)分數的解釋
解釋分數要注意以下幾個問題。
一個人在任何一個測驗上的分數,都是他的遺傳特徵、測驗前的學習與經驗以及測驗情境的函數,這三個方面對測驗成績都有影響。所以我們應該把測驗分數看成是對受測者目前狀況的測量,至於他是如何達到這一狀況的,則受許多因素影響。為了能對分數做出有意義的解釋,必須將個人在測驗前的經歷或背景因素考慮在內。例如,一個學生可能因為身體不適、情緒不好、不懂施測者的說明或意外干擾而得到較低的分數,也可能因為某些偶然情況而得到意外的好分數。無論哪種情況,都要找出造成分數反常的原因,而不要單純根據分數武斷地下結論。
為了對測驗分數做出確切的解釋,只有常模資料是不夠的,還必須有效度資料。沒有效度證據的常模資料,只告訴我們一個人在一個常模團體中的相對等級,不能作預測或更多的解釋。在解釋分數時,人們最常犯的錯誤就是僅根據測驗的標題和常模數據去推論測驗分數的意義,而忽略效度的不足或缺乏。假若一個測驗的名稱是內向量表,並有可利用的常模資料,那麼就很容易把得高分的人說成是內向性格,即把它當做有效度資料那樣來解釋。即使是有效度資料,在對測驗分數做解釋時也要十分謹慎,因為測驗效度的概化能力是有限的。不同的常模團體和不同的施測條件,往往會得到不同的結果。在解釋分數時,一定要依據從最相匹配的團體和最相近的情境中獲得資料。
由於測驗不是完全可靠(信度不足),應該永遠把測驗分數視為一個范圍而不是一些確定的點,也就是要對測驗分數提供帶形的解釋,即指出真實分數落在某個區間的可能性有多大。倘若使用確切的分數,應說明這些分數不是精確的指標,而是我們對某人真實分數的最佳估計。
對來自不同測驗的分數不能直接加以比較。即使兩個測驗名稱相同,由於所包含的具體內容不同(因而所測量的特質不完全相同),建立標准化樣本的組成不同,量表的單位(如標准差)不同,其分數也不具備可比性。如來自兩個成就測驗的分數,在沒有其他信息的情況下,我們無法判斷孰高孰低。為了使不同測驗分數可以比較,必須將二者放在統一的量表上。當兩種測驗取樣的范圍相同時,人們常用等值百分位法將兩種測驗分數等值化。具體做法是:將兩個測驗都對同一個樣本進行施測,並把兩種測驗的原始分數都轉換成百分等級,然後用該百分等級作為中介,就可以做出一個等價的原始分數表。如果在測驗A中原始分數55是90百分等級,而在測驗B中原始分數36也是90百分等級,那麼測驗A的55分就與測驗B的36分等值。另一種方法是不用相同的百分等級作為中介,而用相同的標准分數作等值的基礎,此種方法叫線性等值。
(三)結果的報告
為了使受測者本人以及與受測者有關的人,如家長、教師、僱主等,能更好地理解分數的意義,在報告分數時要注意以下幾個問題。
使用當事人所理解的語言。測驗像其他特殊領域一樣,具有自己的專業詞彙,因此你所理解的詞並不意味著當事人也一定理解。例如,你懂得標准差和標准分數,然而當事人可能不懂。因此,你必須用非專業性的用語來解釋標准分數,可以把它解釋成相對位置(即百分等級)。必要時,可以問問當事人是否聽懂了,讓他說說你的解釋是什麼意思。
要保證當事人知道這個測驗測量什麼或預測什麼。這里並不需要作詳細的技術性解釋。例如,你並不需要向當事人解釋職業興趣調查表的編制過程,但應該讓他知道,職業興趣量表是把他的興趣和從事各種職業的人加以比較。如果在某一方面得了高分,就意味著如果他參加這個工作會長期幹下去。但另一方面,也不能過於簡單,只告訴當事人某個量表的標題或測量什麼是不夠的,這在具有情緒色彩的人格特徵方面特別重要。例如,對人格測驗中的男性化、女性化量表就要加以解釋,以免被試誤解。
如果分數是以常模為參照的,要使當事人知道他是和什麼團體在進行比較。例如,同一個百分等級對於普通學校和重點學校意義是不同的。
要使當事人認識到分數只是一個「最好」的估計。由於測驗的信度、效度不足,分數可能有誤差,而且對於一個團體總體來說,有效的測驗不一定對每個人都同樣有效,但也不能讓被試感到分數是毫不足信的。
要使當事人知道如何運用他的分數。當測驗用於人員選擇和安置問題時,這一點是特別重要的。要向當事人講清,測驗分數在作決定過程中起什麼作用,是完全由分數決定取捨,還是只把分數作為參考;有沒有規定最低分數線;測驗上的低分數能否由其他方面補償,等等。
要考慮測驗分數將給當事人帶來什麼心理影響。由於對分數的解釋會影響受測者的自我認識、自我評價,從而會影響他的行為,所以在解釋分數時一方面要十分慎重。另一方面又要做必要的思想工作,防止被試因分數低而悲觀失望或因分數高而驕傲自滿。
要讓當事人積極參與測驗分數的解釋。畢竟分數是他的不是你的,作出的決定會影響他的生活而不是你的生活,因此在解釋分數的各個階段,你都應觀察他的反應,鼓勵他提出問題。雖然測驗分數的信息有限,但考慮到分數能夠引起一連串的事件,嚴重地影響一個人的生活,因此,你必須保證他完全了解分數的表面意義和隱含意義。除非當事人積極地參與這個過程,否則你無法了解他對於自己的分數有了多大程度的理解。
心理測驗是一種輔助工具,受測者的表現還受到許多其他因素影響,因此不能過於誇大心理測驗的作用。
B. 常見的測試用例設計方法都有哪些請分別以具體的例子來說明這些方法在測試用例設計工作中的應用
1)等價類劃分劃分
等價類是指某個輸入域的子集合。在該子集合中,各個輸入數據對於揭露程序中的錯誤都是等效的。並合理地假定:測試某等價類的代表值就等於對這一類其它值的測試。因此,可以把全部輸入數據合理劃分為若乾等價類,在每一個等價類中取一個數據作為測試的輸入條件,就可以用少量代表性的測試數據。取得較好的測試結果。等價類劃分可有兩種不同的情況:有效等價類和無效等價類。
2)邊界值分析法
邊界值分析方法是對等價類劃分方法的補充。測試工作經驗告訴我,大量的錯誤是發生在輸入或輸出范圍的邊界上,而不是發生在輸入輸出范圍的內部。因此針對各種邊界情況設(面試題目:什麼樣的工作環境適合你from一個常見的軟體測試面試題來自end#lt;結束)計測試用例,可以查出更多的錯誤。
使用邊界值分析方法設計測試用例,首先應確定邊界情況。通常輸入和輸出等價類的邊界,就是應著重測試的邊界情況。應當選取正好等於,剛剛大於或剛剛小於邊界的值作為測試數據,而不是選取等價類中的典型值或任意值作為測試數據。
3)錯誤推測法
基於經驗和直覺推測程序中所有可能存在的各種錯誤,從而有針對性的設計測試用例的方法。
錯誤推測方法的基本思想:列舉出程序中所有可能有的錯誤和容易發生錯誤的特殊情況,根據他們選擇測試用例。例如,在單元測試時曾列出的許多在模塊中常見的錯誤。以前產品測試中曾經發現的錯誤等,這些就是經驗的總結。還有,輸入數據和輸出數據為0的情況。輸入表格為空格或輸入表格只有一行。這些都是容易發生錯誤的情況。可選擇這些情況下的例子作為測試用例。
4)因果圖方法
前面介紹的等價類劃分方法和邊界值分析方法,都是著重考慮輸入條件,但未考慮輸入條件之間的聯系,相互組合等。考慮輸入條件之間的相互組合,可能會產生一些新的情況。但要檢查輸入條件的組合不是一件容易的事情,即使把所有輸入條件劃分成等價類,他們之間的組合情況也相當多。因此必須考慮採用一種適合於描述對於多種條件的組合,相應產生多個動作的形式來考慮設計測試用例。這就需要利用因果圖(邏輯模型)。因果圖方法最終生成的就是判定表。它適合於檢查程序輸入條件的各種組合情況。
5)正交表分析法
有時候,可能因為大量的參數的組合而引起測試用例數量上的激增,同時,這些測試用例並沒有明顯的優先順序上的差距,而測試人員又無法完成這么多數量的測試,就可以通過正交表來進行縮減一些用例,從而達到盡量少的用例覆蓋盡量大的范圍的可能性。
6)場景分析方法
指根據用戶場景來模擬用戶的操作步驟,這個比較類似因果圖,但是可能執行的深度和可行性更好。
C. 心理測量學中的預測源是指什麼
心理量表的測量本質上屬於順序測量,即分數與分數之間不具有相等的單位,而為了進一步進行統計分析,只能把這些分數看作是等距變數。目前為止,還沒有完全實現測量單位客觀化的心理測量方法。
D. 各位樓主誰知道哪裡有2008年心理學考研真題,謝謝
這里有一份最全的考研歷年真題資料分享給你
鏈接:https://pan..com/s/1liaK4BXq1uwkEyN3bkrcLA
通過不斷研究和學習歷年真題,為考生沖刺階段復習提分指點迷津,做真題,做歷年真題集,對照考綱查缺補漏,提高實戰素養,制定做題策略,規劃方向;
若資源有問題歡迎追問!
E. 解釋受測者的心理測量分數時應該注意哪些問題
第一章 心理與教育測量概論
本章考核知識點和考核要求
一、識記
(一)測量的定義:P2
測量是依據一定的法則,使用量具對事物的特徵進行定量描述的過程。
(二)測量的基本要素:P4
任何測量都必須具備兩個基本要素,即測量的參照點和測量的單位。
(三)心理與教育測量的定義:P6—7
依據一定的心理學和教育學理論,使用測驗對人的心理特徵和教育成就進行定量描述的過程。
二、領會
(一)測量量表的4種類型:P5
命名表、順序量表、等距量表、比率量表
(二)心理測驗的4個基本條件:P9—12
1、行為樣本 2、標准化 3、難度或應答率 4、信度和效度
(三)心理測驗的5種不用分類:P12—14
1、按測量對象所作的分類:
智力測驗、能力傾向測驗、成就測驗、人格測驗
2、按測量方式所作分類:
個別測量、團體測量
3、按測驗內容的形式所作的分類:
文字測驗、非文字測驗
4、按測驗功能所作的分類:
成就測驗與預測測驗、難度測驗與速度測驗、描述測驗與診斷測驗
5、按評價所參照的標准分類:
常模參照測驗、目標參照測驗、潛力參照測驗
第二章 心理與教育測量的產生與發展
考核知識點與考核要求
一、識記:
(一)高爾頓的主要貢獻:P28
1、英國優生學的創始人。出版了《遺傳的天才》一書,提出人的能力是由遺傳而來的,其差異是可以測量的。
2、1884年,成立「人類測量實驗室」,被視為第一個大規模系統測量人的個別差異的嘗試。
3、發明了許多測量儀器;是應用評定量表、問卷法、自由聯想法的先驅。
4、最重要的貢獻之一是把統計方法應用到對個別差異資料的分析之中。
(二)卡特爾的主要貢獻:P28
美國心理學家,1890年,首次提出「心理測驗」這一術語,他的許多觀點都已成為測量學上的重要觀點。
(三)比內的主要貢獻:P29
法國心理學家,1904年,與其助手西蒙合作完成了世界上第一個智力測驗量表——比內—西蒙量表。
二、領會:
西方心理學與教育測量的發展:P30
1、智力測驗的發展
2、能力傾向測驗的發展
3、成就測驗的發展
4、人格測驗的發展
第三章 經典測驗理論的基本假設
考核知識點與考核要求
一、識記
(一)測量誤差:P40
指在測量過程中由哪些與測量目的無關的變化因素所產生的一種不確定或不一致的測量效應。
(二)隨機誤差:P40
由與測量目的無關的、偶然因素引起的又不易控制的誤差。
(三)系統誤差:P40
是那種由與測量目的無關的變因引起的一種恆定而有規律的效應。
(四)真分數:P42
把反映被試某種心理特質真正水平的那個數值稱為該特質的真分數,簡稱T分數。
(五)平行測驗:P43
如果兩個題目不同的測驗測的是同一特質,並且題目形式、數量、難度、區分度以及測查等值團體後所得分數的分布都是一致的,則這兩個測驗被稱作平行測驗。
二、領會:
(一)測量誤差的三個主要來源:P41
測量工具、被測對象、施測過程
(二)觀察分數、真分數和隨機誤差之間的關系:P42—43
觀察分數是指實測的分數,它們的關系是:
觀察分數被假定等於真分數與誤差分數之和,二者關系被假定為線性關系,隨機誤差服從均值為零的正態分布,它獨立與真分數。
第四章 測量信度
考核知識點與考核要求
一、識記
(一)信度的含義及測量學的定義:
1、信度的含義:P45指測量結果的穩定性程度,也測量的可靠性。
2、信度的測量學定義:P46乃是一個X(A卷)與它的任意一個平行測驗X/(B卷)的相關系數。即RXX=PXX』
(二)重測信度的含義:P48
指用同一個量表對同一組被測試施測兩次所得結果的一致性程度。
(三)復本信度的含義:P49
指兩個平行的測驗測量同一批被試所得結果的一致性程度。
(四)分半信度的含義:P50
指將一個測驗分成對等的兩半後,所有被試在這兩半上所得分數的一致性程度。
(五)同質性信度的含義:P51
指多個評分者給同一批人的答卷進行評分的一致性程度。
二、領會:
(一)信度的作用:P47
1、信度是測量過程中所存在的隨機誤差大小的反映。
2、信度可以用來解釋個人測驗分數的意義
3、信度可以幫助進行不同測驗分數的比較。
(二)重測信度的使用條件:P48
(三)復本信度的使用條件:P49
(四)分半信度的使用條件:P50—51
(五)同質信度的使用條件:P51
(六)影響信度的因素:P55
被測、主試、施測情境、測量工具、兩次施測的間隔時間
(七)提高信度的方法:P56
1、適當增加測驗的長度,
2、使測驗中所有試題的難度接近正態分布,並控制在中等水平,
3、努力提高測驗試題的區分度,
4、選取恰當的被試團體,
5、主試者嚴格執行實測規程,評分者嚴格按標准給分,減少無關因素的干擾。
三、應用
(一)能用克龍巴赫系數計算項目的同質性信度
克龍巴赫α系數 P52 公式、例題
(二)能用肯德爾和諧系數計算評分這信度
P53 公式 P54 舉例
(三)通過增加題目長度來提高測驗的信度。
P56
第五章 測量效度
考核知識點與考核要求
一、識記
(一)效度的含義:P59
指一個測驗或量表時間能測出其所要測的心理特質的程度。
(二)效度的測量學定義:P60
在一系列測量中,與測量目的有關的真實變異數與總變異數(實得變異數)的比率。即
效度=SV2/RXY2
(三)內容效度的含義:P62
指一個測驗時間測到的內容與所要測量的內容之間的吻合程度。
(四)結構效度的含義:P63
是指一個測驗實際測到所要測量的理論結構和特質的程度。
(五)實證效度的含義:P66
指一個測驗對處於特定情境中的個體的行為進行估計的有效性。
(六)效標的含義:P67
就是衡量一個測驗是否有效的外在標准。
二、領會
(一)效度的特點:P59
1、效度是一個相對的概念
2、效度是測量的隨機誤差和系統誤差的綜合反映
3、判斷一個測量是否有效要多個方面搜集證據。
(二)效度與信度的關系:P61
1、信度是效度高的必要而非充分的條件
2、測驗的效度受它的信度制約
(三)三種效度的適用范圍:
1、內容效度的適用范圍P62
成就測驗、職業測驗
2、結構效度的適用范圍P63
智力測驗、人格測驗等
3、實證效度的適用范圍P67
診斷現狀、預測個體將來的行為
(四)影響效度的因素P69
測驗的構成、實施的過程、被試、所選效標的性質、測量信度
(五)提高效度的方法P70
1、精心編制測驗量表,避免出現較大的系統誤差
2、妥善組織測驗,控制隨機誤差
3、創設標準的應試情境,讓每個被試都能發揮正常的水平
三、應用
三種效度的估計方法
(一)內容效度的確定方法P63
主要是邏輯分析法
(二)結構效度的確定方法P64
1、測驗內部尋找證據法
2、測驗之間尋找證據法
3、考察測驗的實證效度法
4、多種特質——多種方法矩陣法
(三)實證效度的確定方法P68
1、相關法 2、區分法 3、命中率
第六章 測驗的項目分析
考核知識點與考核要求
一、識記
(一)項目難度的含義:P72
是指測驗項目的難易程度。
(二)區分度的含義:P77
是指測驗項目對被試心理品質水平差異的區分能力。
二、領會:
(一)難度對測驗分數的影響:P76
1、測驗難度影響測驗分數的分布形態
2、測驗難度影響測驗分數的離散程度
(二)項目鑒別指數評價題目性能的標准P79 表6—1
(三)區分度的相對性:P85
1、不同的計算方法,所得區分值不同。
2、樣本容量大小影響相關法區分值的大小
3、分組標准影響鑒別指數值D
4、被試樣本的同質性程度影響區分度值的大小
(四)區分度和難度的關系:P84
1、難度越接近0.50,項目潛在的區分越大
2、難度越接近1.00或0時,項目的潛在區分度越小
三、應用
(一)計算不同形式題目(是非題、選擇題、論述題)的難度。P72—74
1、二分法記分形式項目的難度計算P72—73
公式、例題
2、非二分法記分項目的難度計算P73—74
公式、例題
(二)用鑒別指數法計算測驗題的區分度P78
鑒別指數的計算P78
公式、例題
(三)根據難度和區分度進行多重選擇題的項目分析:P91 表
第七章 測驗常模
考核知識點與考核要求
一、識記
(一)原始分數和導出分數的含義 P93
1、被試在接受測驗後,根據測驗的記分標准,對照被試的反應所計算出的測驗分數稱作原始分數。
2、在原始分數轉換的基礎上,按照一定的規則,經過統計處理後獲得的具有一定參考點和單位,且可以相互比較的分數。
(二)百分等級的含義P94
是應用最廣的導出分數,是指在一個群體的測驗分數中,得分低於這個分數的人數的百分比。就是說,如果將某一被試群體分為一百個等級,則每位被試所佔的等級數就是百分等級。
(三)標准分數的含義和種類:P96
1、含義:又稱公分數,是將原始分數與團體的平均數之差除以標准差所得的商數。公式。
2、種類:P97-100。T分數、其他形式、標准九分數。
(四)常模團體的含義:P106
是由具有某種共同特徵的人所組成的一個群體,或是該群體的一個樣本。
二、領會
(一)標准分數的優缺點
優點:P96,它是一個抽象值,不受原始測量單位的影響,並可接受進一步的統計處理。
缺點:公分數由於計算中經常出現負數和小數,且單位過大,因此使用起來不夠方便。P97
(二)確定常模團體的注意事項P106-107:共六點
(三)制定常模的過程P108
1、確定測驗將用於哪一個群體。
2、對常模團體進行施測,獲得團體成員的測驗分數和分數分布。
3、確定常模分數類型,製作常模量表,給出書面說明等。
(四)幾種主要的常模參照分數P108-110
1、發展量表P108
2、商數P110分式
三、應用
(一)比較幾種導出分數的優缺點P94
1、百分等級分數的優缺點P95
2、標准分數的優缺點P96-97
3、T分數的優缺點P98下
(二)計算未分組資料的百分等級
P94 公式、例題
第八章 心理與教育測驗的編制與實施
一、領會
(一)心理測驗編制的一般程序P117
1、確定測驗目的
2、制定編題計劃
3、編輯測驗項目
4、預測與項目分析
5、合成測驗
6、測驗標准化
7、鑒定測驗
8、編寫測驗說明書。
(二)編輯測驗項目的注意事項P120
共六點
(三)測驗標准化應注意的問題:P122
1、測驗內容
2、施測過程
3、測驗評分
4、測驗分數的解釋
(四)測驗實施過程中應注意的問題:P125
1、施測前的准備工作
2、指導語
3、測驗情境
4、測驗焦慮
5、與受測者建立良好的協調關系
(五)測驗焦慮的相關內容P126
二、應用
(一)項目編排和製作復本的方法
1、項目編排的方法:P121
並列直進式、混合螺旋式
2、製造復本的方法P122
(1)先將所有可用的項目按難度排列,其次序為1、2、3、4、5、6、……
(2)分成兩個等值的測驗本方法
(3)分成3個等值的沒測驗本方法
(二)解釋測驗分數意義時遵循的基本原則P129:共六點
(三)向受測者報告測驗分數時的注意事項P131-132共九點
第九章 測驗等值
一、識記:
(一)測驗等值的含義P135
就是通過對考核同一種心理品質的多個測驗形式作出測量分數系統的轉換,進而使得這些不同測驗形式的測驗分數之間具有可比性。這樣一套專門技術稱為~
(二)錨測驗的含義:P138
在測驗等值設計中,有時會採用一組測驗試題來關聯兩個待等值的測驗形式,以便尋找兩形式的等值關系,這些測驗試題被稱為錨測驗。
(二)領會
(一)測驗等值的條件P136
1、同質性2、等信度3、公平性4、可遞推性5、對稱性6、樣本不變性。
(二)測驗等值結果的表示方法:P140
1、表列法2、公式法3、圖示法
三、應用
(一)等百分位等值的計算:P142例題
(二)線性等值的計算P143、公式P144例題
第十章 目標參照測驗
一、識記
(一)目標參照測驗的含義:P154
當一個測驗是以某一明確界定的內容範圍為基礎編制而成,並且其分數是參照該內容範圍所要求的絕對標准進行解釋,我們便稱這一測驗為~
(二)分類一致性信度的含義:P161
對測驗的分類一致性的度量指標,稱作~
二、領會
(一)雙向細目表的構成要素:P154-155
1、教學目標
2、教學內容
3、在整個內容範圍中每一類內容和每一種目標結合後,所佔的比重(相對重要性)
(二)測驗項目區分度的兩類指標P159
1、難度差值
2、相關系數
(三)目標參照測驗的效度及其估計P163
1、內容效度及評估重要條件
2、效標關聯效度的估計——決策效度。
(四)目標參照測驗分數分界點確定的幾種方法P165
1、專家判是法2、效標組預測法
三、應用
(一)根據測驗項目的內容效度分析來決定項目的取捨P155-158
關鍵詞:專家評定法、項目內容評定表、等級評定均值和中位數分析。
(二)測驗項目難度差值的計算分析P158
1、難度分析P158下
2、計算——與常模參照測驗相同,以通過率表示。P159,難度差值。
(三)比較目標參照測驗和常模參照測驗的異同。
1、P152-P153 上,兩者差異
2、相同點:P168
第十一章 學績測驗
一、 識記
(一) 學績測驗的含義P170
是對個體在某一階段的學習或訓練之後知識、技能的發展水平的測定。
(二) 標准化學績測驗的含義P173
在心理與教育測量學原理指導下,遵循一定的程序所編制的各方面質量都達到規定標準的學績測驗,稱為~
(三) 斯坦福成就測驗P177
屬於綜合性學績考查測驗,也是一種供團體使用的常模參照性測驗,歷史比較長。
二、 領會
(一) 學績測驗的分類P172
1、 按測驗的編制方法分
2、 按測驗的內容分
3、 按測驗用途分
4、 按測驗評分的參照系分
5、 按測驗的題型分
(二) 標准化學績測驗的基本條件P174
1、 命題組卷標准化
2、 施測標准化
3、 評分標准化
4、 測驗分數解釋標准化
(三) 標准化學績測驗的編制過程P175-177。共五點
(四) 教師自編課堂測驗的特點P182
1、 測驗形式靈活多樣,與測驗目的完全一致
2、 測驗內容與教材內容高度一致
3、 測驗難度切合學生實際水平
4、 測驗編制簡易快速。
第十二章 能力測驗(上)
一、 識記
(一) 幾種智力理論的名稱、主要代表人物和觀點
1、 智力的心理測量學理論P188
① 主要代表人物
② 主要觀點
2、 智力的生物學理論P189
① 主要人物質
② 主要觀點
3、 智力的認知心理學理論P190
(二) 三種常用的團體智力測驗名稱P206
1、 陸軍測驗
2、 瑞文推理測驗
3、 認知能力測驗
二、 領會
(一) 比內量表的發展階段P198-199
1、 比內——西蒙量表的發展階段
2、 斯坦福——比內量表的發展階段
(二) 韋氏成人智力量表修訂本的構成P201
1、1981年修訂版P201
2、中國修訂本P202-203
(三)斯比量表和韋氏量表的信度估計
1、斯比量表的信效度估計P199
2、韋氏量表的信效度估計P202
(四)瑞文推理測驗的三種水平及其優點P206
1、三種水平:標准推理測驗,采圖推理測驗,高級推理測驗
2、優點:P207
三、應用
評價傳統智力測驗存在的若干問題P192-195
共四大點
第十三章 能力測驗(下)
一、領會
(一)能力傾向測驗的特點:P211
1、測驗的目的
2、測驗的編制
3、測驗結果的解釋
(二)創造力測驗的理論基礎P222
吉爾福特發散思維的研究
第十四章 人格測量
一、識記
(一)人格測量發展過程中出現幾個重要人物P228
1、英國學者高爾頓1884年首倡用科學方法測量人格
2、1892年,克雷培林將聯想測驗用於臨床診斷
3、1919年美國戴德沃斯發表第一個自陳人格量表
4、1920年,羅夏克墨跡測驗問世,投射測驗由此產生
(二)自陳量表的含義:P230
就是根據要測量的人格特質,編制許多有關的問題,要求受測者根據自己的實際情況逐一回答這些問題,然後根據受測者的答案,去衡量受測者雜一這種人格特質上的表現程度。為完成自陳人格測量而編制的測量工具叫自陳量表。
(三)投射測驗的含義:P241
指向受測者提供預先編制的一些未經組織的、意義模糊的標准化刺激情境,讓受測者在不受任何限制的情況下,自由地對刺激情境作出他的反應,然後通過分析受測者的反應,推斷受測者的人格特質。
三、 領會
(一)自陳量表的編制方法和特點:P230
1、編制方法:是否式、二擇一式、是否折中式、文字等級式、數字等級式
2、特點:
①題量較大,多數用於測量人格的若干特質
②通常採用紙筆測驗
③記分規則簡單客觀,施測手續簡便,測量分數容易獲得解釋
(二)明尼蘇達人格問卷概況P233
(三) 卡特爾16種人格問卷概況P235
(四) 艾森克人格問卷簡介P236
(五) 投射測驗的理論假設P242
1、 人們對外部事物的解釋性反應都是有其心理原因的,同時也是可以給予說明和預測的。
2、 反應者過去形成 的人格特徵,他當時的心理狀態以及他對未來的期望會滲透在他對外部刺激的反應過程及結果中。
3、 個人的人格會無意識地滲透在對刺激情境的解釋性反應中,因此可以通過測驗得以解釋。
(六) 羅夏克墨跡測驗的四個階段P243
1、 自由反應階段
2、 提問階段
3、 類比階段
4、 極限測驗階段
(七) 羅夏克墨跡測驗概況:P243
(八) 主題統覺測驗簡介:P245
第十五章 其他心理與教育測驗
一、 識記
(一) 狀態焦慮的含義P148
是指由緊張、擔憂、神經過敏和憂慮所引起的主觀感覺和由主性神經系統的喚醒所引起的生理反應。
(二) 物質焦慮的含義P249
是一種比較穩定的人格物質,它存在著個體差異,是一種習得的行為傾向。
二、 領會
(一) 常用的焦慮測驗P249
1、 顯性焦慮量表(MAS)
2、 狀態——物質焦慮量表(STAI)
3、 測驗焦慮量表
4、 其他臨床焦慮量表
(二) 職業興趣測驗P253
1、 斯特朗職業興趣問卷
2、 庫德職業興趣調查表
3、 自我指導問卷
(三) 品德和態度測量的常用方法
1、 態度測量方法:P260等距量表法、克利特量表法、哥特曼量表法
2、 品德測量方法:P265情境測驗法、問卷測量法等
第十六章 測量的綜合應用
一、 應用:
論述心理測量在三個領域中的應用情況及需要補充完善的地方。
(一) 心理測量在心理咨詢中的應用:P271
1、 在自我認識、人生規劃咨詢中的應用
2、 在神經症、人格障礙等咨詢中的應用
(二) 心理測量在人事測評中的應用P275
1、 在人的心理特點評估中的應用
2、 人員培訓後的心理特點評估
3、 工作人員的效績評估
(三) 心理測量在教育評價中的應用P281
1、 在測量學生的學習與發展狀況中的應用
2、 在教師與管理者評價中的應用
第十七章 心理與教育測量理論的新發展
本章不作考試要求
附錄 題型舉例
一、 填空題
1、按測量方式所作的分類,心理測量可分為個別測量和 。
2、首次提出「心理測驗」這個術語的人是 。
二、單選題
1、在EPQ量表中,反映被試的社會朴實或者幼稚水平的分量表是( )
A 、P量表 B、E量表 C、N量表 D、L量表
2、某一項目上高分組和低分組的通過率分別為0.83和0.43,則該項目的難度是( )
A、0.43 B、0.40 C、0.59 D、0.75
三、名詞解釋
1、重測信度
2、結構效度
四、簡答題
1、簡述信度和效度的關系。
2、簡述投射測驗的基本原理及其特點。
五、計算和分析題
1、某人在一次由80人參加的成就測驗中得76分,排名18,則該生成績(76分)的百分等級是多少?
2、下表為一個由370人參加的測驗中的4個題目的項目信息統計結果列表,請您對這4個題目進行項目分析和評價。
F. 什麼是心理與教育測量
心理與教育測量大綱/講義
第一章 心理與教育測量概論
本章考核知識點和考核要求
一、識記
(一)測量的定義:P2
測量是依據一定的法則,使用量具對事物的特徵進行定量描述的過程。
(二)測量的基本要素:P4
任何測量都必須具備兩個基本要素,即測量的參照點和測量的單位。
(三)心理與教育測量的定義:P6—7
依據一定的心理學和教育學理論,使用測驗對人的心理特徵和教育成就進行定量描述的過程。
二、領會
(一)測量量表的4種類型:P5
命名表、順序量表、等距量表、比率量表
(二)心理測驗的4個基本條件:P9—12
1、行為樣本 2、標准化 3、難度或應答率 4、信度和效度
(三)心理測驗的5種不用分類:P12—14
1、按測量對象所作的分類:
智力測驗、能力傾向測驗、成就測驗、人格測驗
2、按測量方式所作分類:
個別測量、團體測量
3、按測驗內容的形式所作的分類:
文字測驗、非文字測驗
4、按測驗功能所作的分類:
成就測驗與預測測驗、難度測驗與速度測驗、描述測驗與診斷測驗
5、按評價所參照的標准分類:
常模參照測驗、目標參照測驗、潛力參照測驗
第二章 心理與教育測量的產生與發展
考核知識點與考核要求
一、識記:
(一)高爾頓的主要貢獻:P28
1、英國優生學的創始人。出版了《遺傳的天才》一書,提出人的能力是由遺傳而來的,其差異是可以測量的。
2、1884年,成立「人類測量實驗室」,被視為第一個大規模系統測量人的個別差異的嘗試。
3、發明了許多測量儀器;是應用評定量表、問卷法、自由聯想法的先驅。
4、最重要的貢獻之一是把統計方法應用到對個別差異資料的分析之中。
(二)卡特爾的主要貢獻:P28
美國心理學家,1890年,首次提出「心理測驗」這一術語,他的許多觀點都已成為測量學上的重要觀點。
(三)比內的主要貢獻:P29
法國心理學家,1904年,與其助手西蒙合作完成了世界上第一個智力測驗量表——比內—西蒙量表。
二、領會:
西方心理學與教育測量的發展:P30
1、智力測驗的發展
2、能力傾向測驗的發展
3、成就測驗的發展
4、人格測驗的發展
第三章 經典測驗理論的基本假設
考核知識點與考核要求
一、識記
(一)測量誤差:P40
指在測量過程中由哪些與測量目的無關的變化因素所產生的一種不確定或不一致的測量效應。
(二)隨機誤差:P40
由與測量目的無關的、偶然因素引起的又不易控制的誤差。
(三)系統誤差:P40
是那種由與測量目的無關的變因引起的一種恆定而有規律的效應。
(四)真分數:P42
把反映被試某種心理特質真正水平的那個數值稱為該特質的真分數,簡稱T分數。
(五)平行測驗:P43
如果兩個題目不同的測驗測的是同一特質,並且題目形式、數量、難度、區分度以及測查等值團體後所得分數的分布都是一致的,則這兩個測驗被稱作平行測驗。
二、領會:
(一)測量誤差的三個主要來源:P41
測量工具、被測對象、施測過程
(二)觀察分數、真分數和隨機誤差之間的關系:P42—43
觀察分數是指實測的分數,它們的關系是:
觀察分數被假定等於真分數與誤差分數之和,二者關系被假定為線性關系,隨機誤差服從均值為零的正態分布,它獨立與真分數。
第四章 測量信度
考核知識點與考核要求
一、識記
(一)信度的含義及測量學的定義:
1、信度的含義:P45指測量結果的穩定性程度,也測量的可靠性。
2、信度的測量學定義:P46乃是一個X(A卷)與它的任意一個平行測驗X/(B卷)的相關系數。即RXX=PXX』
(二)重測信度的含義:P48
指用同一個量表對同一組被測試施測兩次所得結果的一致性程度。
(三)復本信度的含義:P49
指兩個平行的測驗測量同一批被試所得結果的一致性程度。
(四)分半信度的含義:P50
指將一個測驗分成對等的兩半後,所有被試在這兩半上所得分數的一致性程度。
(五)同質性信度的含義:P51
指多個評分者給同一批人的答卷進行評分的一致性程度。
二、領會:
(一)信度的作用:P47
1、信度是測量過程中所存在的隨機誤差大小的反映。
2、信度可以用來解釋個人測驗分數的意義
3、信度可以幫助進行不同測驗分數的比較。
(二)重測信度的使用條件:P48
(三)復本信度的使用條件:P49
(四)分半信度的使用條件:P50—51
(五)同質信度的使用條件:P51
(六)影響信度的因素:P55
被測、主試、施測情境、測量工具、兩次施測的間隔時間
(七)提高信度的方法:P56
1、適當增加測驗的長度,
2、使測驗中所有試題的難度接近正態分布,並控制在中等水平,
3、努力提高測驗試題的區分度,
4、選取恰當的被試團體,
5、主試者嚴格執行實測規程,評分者嚴格按標准給分,減少無關因素的干擾。
三、應用
(一)能用克龍巴赫系數計算項目的同質性信度
克龍巴赫α系數 P52 公式、例題
(二)能用肯德爾和諧系數計算評分這信度
P53 公式 P54 舉例
(三)通過增加題目長度來提高測驗的信度。
P56
第五章 測量效度
考核知識點與考核要求
一、識記
(一)效度的含義:P59
指一個測驗或量表時間能測出其所要測的心理特質的程度。
(二)效度的測量學定義:P60
在一系列測量中,與測量目的有關的真實變異數與總變異數(實得變異數)的比率。即
效度=SV2/RXY2
(三)內容效度的含義:P62
指一個測驗時間測到的內容與所要測量的內容之間的吻合程度。
(四)結構效度的含義:P63
是指一個測驗實際測到所要測量的理論結構和特質的程度。
(五)實證效度的含義:P66
指一個測驗對處於特定情境中的個體的行為進行估計的有效性。
(六)效標的含義:P67
就是衡量一個測驗是否有效的外在標准。
二、領會
(一)效度的特點:P59
1、效度是一個相對的概念
2、效度是測量的隨機誤差和系統誤差的綜合反映
3、判斷一個測量是否有效要多個方面搜集證據。
(二)效度與信度的關系:P61
1、信度是效度高的必要而非充分的條件
2、測驗的效度受它的信度制約
(三)三種效度的適用范圍:
1、內容效度的適用范圍P62
成就測驗、職業測驗
2、結構效度的適用范圍P63
智力測驗、人格測驗等
3、實證效度的適用范圍P67
診斷現狀、預測個體將來的行為
(四)影響效度的因素P69
測驗的構成、實施的過程、被試、所選效標的性質、測量信度
(五)提高效度的方法P70
1、精心編制測驗量表,避免出現較大的系統誤差
2、妥善組織測驗,控制隨機誤差
3、創設標準的應試情境,讓每個被試都能發揮正常的水平
三、應用
三種效度的估計方法
(一)內容效度的確定方法P63
主要是邏輯分析法
(二)結構效度的確定方法P64
1、測驗內部尋找證據法
2、測驗之間尋找證據法
3、考察測驗的實證效度法
4、多種特質——多種方法矩陣法
(三)實證效度的確定方法P68
1、相關法 2、區分法 3、命中率
第六章 測驗的項目分析
考核知識點與考核要求
一、識記
(一)項目難度的含義:P72
是指測驗項目的難易程度。
(二)區分度的含義:P77
是指測驗項目對被試心理品質水平差異的區分能力。
二、領會:
(一)難度對測驗分數的影響:P76
1、測驗難度影響測驗分數的分布形態
2、測驗難度影響測驗分數的離散程度
(二)項目鑒別指數評價題目性能的標准P79 表6—1
(三)區分度的相對性:P85
1、不同的計算方法,所得區分值不同。
2、樣本容量大小影響相關法區分值的大小
3、分組標准影響鑒別指數值D
4、被試樣本的同質性程度影響區分度值的大小
(四)區分度和難度的關系:P84
1、難度越接近0.50,項目潛在的區分越大
2、難度越接近1.00或0時,項目的潛在區分度越小
三、應用
(一)計算不同形式題目(是非題、選擇題、論述題)的難度。P72—74
1、二分法記分形式項目的難度計算P72—73
公式、例題
2、非二分法記分項目的難度計算P73—74
公式、例題
(二)用鑒別指數法計算測驗題的區分度P78
鑒別指數的計算P78
公式、例題
(三)根據難度和區分度進行多重選擇題的項目分析:P91 表
第七章 測驗常模
考核知識點與考核要求
一、識記
(一)原始分數和導出分數的含義 P93
1、被試在接受測驗後,根據測驗的記分標准,對照被試的反應所計算出的測驗分數稱作原始分數。
2、在原始分數轉換的基礎上,按照一定的規則,經過統計處理後獲得的具有一定參考點和單位,且可以相互比較的分數。
(二)百分等級的含義P94
是應用最廣的導出分數,是指在一個群體的測驗分數中,得分低於這個分數的人數的百分比。就是說,如果將某一被試群體分為一百個等級,則每位被試所佔的等級數就是百分等級。
(三)標准分數的含義和種類:P96
1、含義:又稱公分數,是將原始分數與團體的平均數之差除以標准差所得的商數。公式。
2、種類:P97-100。T分數、其他形式、標准九分數。
(四)常模團體的含義:P106
是由具有某種共同特徵的人所組成的一個群體,或是該群體的一個樣本。
二、領會
(一)標准分數的優缺點
優點:P96,它是一個抽象值,不受原始測量單位的影響,並可接受進一步的統計處理。
缺點:公分數由於計算中經常出現負數和小數,且單位過大,因此使用起來不夠方便。P97
(二)確定常模團體的注意事項P106-107:共六點
(三)制定常模的過程P108
1、確定測驗將用於哪一個群體。
2、對常模團體進行施測,獲得團體成員的測驗分數和分數分布。
3、確定常模分數類型,製作常模量表,給出書面說明等。
(四)幾種主要的常模參照分數P108-110
1、發展量表P108
2、商數P110分式
三、應用
(一)比較幾種導出分數的優缺點P94
1、百分等級分數的優缺點P95
2、標准分數的優缺點P96-97
3、T分數的優缺點P98下
(二)計算未分組資料的百分等級
P94 公式、例題
第八章 心理與教育測驗的編制與實施
一、領會
(一)心理測驗編制的一般程序P117
1、確定測驗目的
2、制定編題計劃
3、編輯測驗項目
4、預測與項目分析
5、合成測驗
6、測驗標准化
7、鑒定測驗
8、編寫測驗說明書。
(二)編輯測驗項目的注意事項P120
共六點
(三)測驗標准化應注意的問題:P122
1、測驗內容
2、施測過程
3、測驗評分
4、測驗分數的解釋
(四)測驗實施過程中應注意的問題:P125
1、施測前的准備工作
2、指導語
3、測驗情境
4、測驗焦慮
5、與受測者建立良好的協調關系
(五)測驗焦慮的相關內容P126
二、應用
(一)項目編排和製作復本的方法
1、項目編排的方法:P121
並列直進式、混合螺旋式
2、製造復本的方法P122
(1)先將所有可用的項目按難度排列,其次序為1、2、3、4、5、6、……
(2)分成兩個等值的測驗本方法
(3)分成3個等值的沒測驗本方法
(二)解釋測驗分數意義時遵循的基本原則P129:共六點
(三)向受測者報告測驗分數時的注意事項P131-132共九點
第九章 測驗等值
一、識記:
(一)測驗等值的含義P135
就是通過對考核同一種心理品質的多個測驗形式作出測量分數系統的轉換,進而使得這些不同測驗形式的測驗分數之間具有可比性。這樣一套專門技術稱為~
(二)錨測驗的含義:P138
在測驗等值設計中,有時會採用一組測驗試題來關聯兩個待等值的測驗形式,以便尋找兩形式的等值關系,這些測驗試題被稱為錨測驗。
(二)領會
(一)測驗等值的條件P136
1、同質性2、等信度3、公平性4、可遞推性5、對稱性6、樣本不變性。
(二)測驗等值結果的表示方法:P140
1、表列法2、公式法3、圖示法
三、應用
(一)等百分位等值的計算:P142例題
(二)線性等值的計算P143、公式P144例題
第十章 目標參照測驗
一、識記
(一)目標參照測驗的含義:P154
當一個測驗是以某一明確界定的內容範圍為基礎編制而成,並且其分數是參照該內容範圍所要求的絕對標准進行解釋,我們便稱這一測驗為~
(二)分類一致性信度的含義:P161
對測驗的分類一致性的度量指標,稱作~
二、領會
(一)雙向細目表的構成要素:P154-155
1、教學目標
2、教學內容
3、在整個內容範圍中每一類內容和每一種目標結合後,所佔的比重(相對重要性)
(二)測驗項目區分度的兩類指標P159
1、難度差值
2、相關系數
(三)目標參照測驗的效度及其估計P163
1、內容效度及評估重要條件
2、效標關聯效度的估計——決策效度。
(四)目標參照測驗分數分界點確定的幾種方法P165
1、專家判是法2、效標組預測法
三、應用
(一)根據測驗項目的內容效度分析來決定項目的取捨P155-158
關鍵詞:專家評定法、項目內容評定表、等級評定均值和中位數分析。
(二)測驗項目難度差值的計算分析P158
1、難度分析P158下
2、計算——與常模參照測驗相同,以通過率表示。P159,難度差值。
(三)比較目標參照測驗和常模參照測驗的異同。
1、P152-P153 上,兩者差異
2、相同點:P168
第十一章 學績測驗
一、 識記
(一) 學績測驗的含義P170
是對個體在某一階段的學習或訓練之後知識、技能的發展水平的測定。
(二) 標准化學績測驗的含義P173
在心理與教育測量學原理指導下,遵循一定的程序所編制的各方面質量都達到規定標準的學績測驗,稱為~
(三) 斯坦福成就測驗P177
屬於綜合性學績考查測驗,也是一種供團體使用的常模參照性測驗,歷史比較長。
二、 領會
(一) 學績測驗的分類P172
1、 按測驗的編制方法分
2、 按測驗的內容分
3、 按測驗用途分
4、 按測驗評分的參照系分
5、 按測驗的題型分
(二) 標准化學績測驗的基本條件P174
1、 命題組卷標准化
2、 施測標准化
3、 評分標准化
4、 測驗分數解釋標准化
(三) 標准化學績測驗的編制過程P175-177。共五點
(四) 教師自編課堂測驗的特點P182
1、 測驗形式靈活多樣,與測驗目的完全一致
2、 測驗內容與教材內容高度一致
3、 測驗難度切合學生實際水平
4、 測驗編制簡易快速。
第十二章 能力測驗(上)
一、 識記
(一) 幾種智力理論的名稱、主要代表人物和觀點
1、 智力的心理測量學理論P188
① 主要代表人物
② 主要觀點
2、 智力的生物學理論P189
① 主要人物質
② 主要觀點
3、 智力的認知心理學理論P190
(二) 三種常用的團體智力測驗名稱P206
1、 陸軍測驗
2、 瑞文推理測驗
3、 認知能力測驗
二、 領會
(一) 比內量表的發展階段P198-199
1、 比內——西蒙量表的發展階段
2、 斯坦福——比內量表的發展階段
(二) 韋氏成人智力量表修訂本的構成P201
1、1981年修訂版P201
2、中國修訂本P202-203
(三)斯比量表和韋氏量表的信度估計
1、斯比量表的信效度估計P199
2、韋氏量表的信效度估計P202
(四)瑞文推理測驗的三種水平及其優點P206
1、三種水平:標准推理測驗,采圖推理測驗,高級推理測驗
2、優點:P207
三、應用
評價傳統智力測驗存在的若干問題P192-195
共四大點
第十三章 能力測驗(下)
一、領會
(一)能力傾向測驗的特點:P211
1、測驗的目的
2、測驗的編制
3、測驗結果的解釋
(二)創造力測驗的理論基礎P222
吉爾福特發散思維的研究
第十四章 人格測量
一、識記
(一)人格測量發展過程中出現幾個重要人物P228
1、英國學者高爾頓1884年首倡用科學方法測量人格
2、1892年,克雷培林將聯想測驗用於臨床診斷
3、1919年美國戴德沃斯發表第一個自陳人格量表
4、1920年,羅夏克墨跡測驗問世,投射測驗由此產生
(二)自陳量表的含義:P230
就是根據要測量的人格特質,編制許多有關的問題,要求受測者根據自己的實際情況逐一回答這些問題,然後根據受測者的答案,去衡量受測者雜一這種人格特質上的表現程度。為完成自陳人格測量而編制的測量工具叫自陳量表。
(三)投射測驗的含義:P241
指向受測者提供預先編制的一些未經組織的、意義模糊的標准化刺激情境,讓受測者在不受任何限制的情況下,自由地對刺激情境作出他的反應,然後通過分析受測者的反應,推斷受測者的人格特質。
三、 領會
(一)自陳量表的編制方法和特點:P230
1、編制方法:是否式、二擇一式、是否折中式、文字等級式、數字等級式
2、特點:
①題量較大,多數用於測量人格的若干特質
②通常採用紙筆測驗
③記分規則簡單客觀,施測手續簡便,測量分數容易獲得解釋
(二)明尼蘇達人格問卷概況P233
(三) 卡特爾16種人格問卷概況P235
(四) 艾森克人格問卷簡介P236
(五) 投射測驗的理論假設P242
1、 人們對外部事物的解釋性反應都是有其心理原因的,同時也是可以給予說明和預測的。
2、 反應者過去形成 的人格特徵,他當時的心理狀態以及他對未來的期望會滲透在他對外部刺激的反應過程及結果中。
3、 個人的人格會無意識地滲透在對刺激情境的解釋性反應中,因此可以通過測驗得以解釋。
(六) 羅夏克墨跡測驗的四個階段P243
1、 自由反應階段
2、 提問階段
3、 類比階段
4、 極限測驗階段
(七) 羅夏克墨跡測驗概況:P243
(八) 主題統覺測驗簡介:P245
第十五章 其他心理與教育測驗
一、 識記
(一) 狀態焦慮的含義P148
是指由緊張、擔憂、神經過敏和憂慮所引起的主觀感覺和由主性神經系統的喚醒所引起的生理反應。
(二) 物質焦慮的含義P249
是一種比較穩定的人格物質,它存在著個體差異,是一種習得的行為傾向。
二、 領會
(一) 常用的焦慮測驗P249
1、 顯性焦慮量表(MAS)
2、 狀態——物質焦慮量表(STAI)
3、 測驗焦慮量表
4、 其他臨床焦慮量表
(二) 職業興趣測驗P253
1、 斯特朗職業興趣問卷
2、 庫德職業興趣調查表
3、 自我指導問卷
(三) 品德和態度測量的常用方法
1、 態度測量方法:P260等距量表法、克利特量表法、哥特曼量表法
2、 品德測量方法:P265情境測驗法、問卷測量法等
第十六章 測量的綜合應用
一、 應用:
論述心理測量在三個領域中的應用情況及需要補充完善的地方。
(一) 心理測量在心理咨詢中的應用:P271
1、 在自我認識、人生規劃咨詢中的應用
2、 在神經症、人格障礙等咨詢中的應用
(二) 心理測量在人事測評中的應用P275
1、 在人的心理特點評估中的應用
2、 人員培訓後的心理特點評估
3、 工作人員的效績評估
(三) 心理測量在教育評價中的應用P281
1、 在測量學生的學習與發展狀況中的應用
2、 在教師與管理者評價中的應用
第十七章 心理與教育測量理論的新發展
本章不作考試要求
附錄 題型舉例
一、 填空題
1、按測量方式所作的分類,心理測量可分為個別測量和 。
2、首次提出「心理測驗」這個術語的人是 。
二、單選題
1、在EPQ量表中,反映被試的社會朴實或者幼稚水平的分量表是( )
A 、P量表 B、E量表 C、N量表 D、L量表
2、某一項目上高分組和低分組的通過率分別為0.83和0.43,則該項目的難度是( )
A、0.43 B、0.40 C、0.59 D、0.75
三、名詞解釋
1、重測信度
2、結構效度
四、簡答題
1、簡述信度和效度的關系。
2、簡述投射測驗的基本原理及其特點。
五、計算和分析題
1、某人在一次由80人參加的成就測驗中得76分,排名18,則該生成績(76分)的百分等級是多少?
2、下表為一個由370人參加的測驗中的4個題目的項目信息統計結果列表,請您對這4個題目進行項目分析和評價。
題
號 組別 選答人數 正確
答案 難度P 區分度
A B C D 未答 Rpb D
1 高分組 5 92 1 2 0 B
0.71 0.52 0.42
低分組 22 50 12 16 0
2 高分組 58 10 15 16 1 A 0.42 0.33 0.32
低分組 26 21 15 36 2
3 高分組 17 25 28 28 12 D
0.31 -0.04 -0.06
低分組 25 11 19 34 11
4 高分組 1 44 14 36 5 C 0.12 0.08 0.04
低分組 1 56 10 28 5
七、論述題
聯系實際談談心理測驗在實際工作中有哪些具體應用?
G. 經典測量理論的詳細內容
真分數理論是最早實現數學形式化的測量理論。它從十九世紀末開始興起,二十世紀30年代形成比較完整的體系而漸趨成熟。50年代格里克森的著作使其具有完備的數學理論形式,而1968年洛德和諾維克的《心理測驗分數的統計理論》一書,將經典真分數理論發展至顛峰狀態,並實現了向現代測量理論的轉換。
所謂真分數是指被測者在所測特質(如能力、知識、個性等)上的真實值,即(True Score)真分數。而我們通過一定測量工具(如測驗量表和測量儀器)進行測量,在測量工具上直接獲得的值(讀數),叫觀測值或觀察分數。由於有測量誤差存在,所以,觀察值並不等於所測特質的真實值,換句話說,觀察分數中包含有真分數和誤差分數。而要獲得對真實分數的值,就必須將測量的誤差從觀察分數中分離出來。為了解決這一問題,真分數理論提出了三個假設:其一,真分數具有不變性。這一假設其實質是指真分數所指代的被測者的某種特質,必須具有某種程度的穩定性,至少在所討論的問題范圍內,或者說在一個特定的時間內,個體具有的特質為一個常數,保持恆定。其二,誤差是完全隨機的。這一假設有三個方面的含義。一是測量誤差的平均數為零的正態隨機變數。在多次測量中,誤差有正有負。如果測量誤差為正值,觀測分數就會高於其實際的分數(真分數);如果測量誤差為負值,則觀測分數就會低於其實際的分數,即觀察分數會出現上下波動的現象。但是,只要重復測量次數足夠多,這種正負偏差會兩相抵消,測量誤差的平均數恰好為零。用數學式表達為:E(E)=0。二是測量誤差分數與所測的特質即真分數之間相互獨立。不僅如此,測量誤差之間,測量誤差與所測特質外其它變數間,也相互獨立的。其三,觀測分數是真分數與誤差分數的和。即X=T+E。
在上述三個基本假設的基礎上,真分數理論作出了如下兩個重要推論:第一,真分數等於實得分數的平均數(T=E(X));第二,在一組測量分數中,實得分數的變異數(方差)等於真分數的變異數(方差)與誤差分數的變異數(方差)之和。即(S2X= S2T + S2E)。 經典測量理論在真分數理論假設的基石上構建起了它的理論大廈,主要包括信度、效度、項目分析、常模、標准化等基本概念。
(1)信度(Reliability)。信度是測量理論中最重要的核心概念,指測量果的一致性程度,亦稱可靠性程度。在經典測量理論中信度被定義為:一組測量分數的真分數的方差(變異數)在總方差(總變異數)中所佔的比率。
由於真分數的方差和誤差分數的方差是無法獲得的,因此這個信度概念還只是一個理想的構想的概念,不能直接計算。為了解決這一問題,CTT提出了平行測驗(Parallel Test)的概念。
所謂平行測驗是指能夠對同一被試的同一特質作相同准確測量的不同測驗形式(測驗題目)。如果某一測驗有許多平行式,則某被試可以在每一形式上獲一個觀測分數,這樣就產生了一個觀測分數的分布,這一分布的平均值就稱作該被試的真分數。實際上,平行測驗是一個構想的概念,要在實際的測驗的編制中實現是非常困難甚至是不可能的,最多也只能說是比較接近。
在平行測驗假設的基礎上,CTT提出了估計測驗信度的一系列方法,如採用相關法進行重測信度(Test-retest Reliability)、復本信度(Equivalent-forms Reliability)、分半信度(Split-half Reliability)的估計,提出同質性的概念以保證反應的一致性,如克倫巴赫(Cronbachα)系數、庫德和理查遜(G.F.Kuder & M.W.Richardson,1937)提出的估計一致性的兩個公式K-R20公式和K-R21公式、荷伊特信度(Hoyt,1941)等都是進行同質性估計的重要方法。
(2)效度(Validity)
測量的效度是指測量結果的有效性程度,也就是已測到的質和量與主試者欲測的質和量相符合的程度,有的也稱效度為正確性。效度是任何一種測評必須解決的首要問題,因為有效性決定了一種對測量效度的考查是一個很復雜的問題,特別是對人的潛在特質的測量,因為潛在特質並不是一個看得見摸得著的物質實體,而是一種觀念構想。對潛在特質的測量只能採用間接的方法,其測量模型可表示用行為主義的公式S-R表示,在測量過程中我們所能控制的是呈現給被試的刺激S,所能觀測到的是被試在一定測量情景下對刺激S的反應R。而潛在特質是介於S和R之間的,在這一中間過程對S傳入大腦的信息作出了處理,處理後的信息以R方式輸出。簡單地說,效度要弄清楚的是在S信號傳入大腦後,哪種(哪些或最主要是哪一種)特質參與了對輸入信號的處理。
CTT對效度問題提出了諸多解決方案,因而有很多效度名稱。如,同時效度,預測效度,表面效度,相容效度,協同效度,假設效度,效標關聯效度,實證效度,經驗效度等等。為了規范效度問題的研究與解釋,美國心理學會在1974年將測量的效度分為三大類,即,內容效度(Content Validity),是指測驗的內容對欲測范圍內內容的代表性程度;結構效度(Construct Validity),測量結果與測驗的理論假設之間的一致性程度;效標關聯效度(Criterion-related Validity),又稱實證效度,指測量的結果與某種外在效標之間的一致性程度,一般用測驗分數與效標之間的相關系數表示。
成就測驗或學科測驗(以檢測知識為主的考試)較容易獲得較高的內容效度,而對這類測驗也往往注重考察它們的內容效度。對於能力測驗、個性測驗、態度測驗、品德測評等,其內容效度的考察往往比較困難,而採用效標關聯效度較多。效度的檢驗不是一次就能完成的,往往要通過累積證據的方法不斷積累效度資料來證實它的有效性,結構效度在根據某一理論結構模型(智力、個性等)編制測驗時特別注重,它也是通過累積證據的方法來效度獲得支持的。
(3)項目分析(Item Analysis)
為了提高測驗的信度和效度,CTT理論特別注重測驗項目的質量,除了深入研究試題的類型和功能及編制技巧外,還發明一系列篩選、甄別項目的方法,統稱為項目分析,其中最主要的是難度分析和區分度分析。項目難度的主要指標是通過率,即在該題上答對的人數與全體被試的比率(或平均得分與該題滿分的比率)。僅難度還不足以說明題目質量的優劣,CTT還提出以題目對被試水平區分鑒別能力作為評價試題質量的區分度概念。
(4)常模(Norm)
CTT理論認為,僅從測驗試卷上的得分不能獲得被試個體確切地位的信息。為了對測驗的分數進行合理的解釋,提出常模的概念。所謂常模即是從某一總體中抽取的被試樣本在該測驗上得分的分布,以常模團體的平均數(或中位數)為參照點,將個體的分數標定在高或低於參照點的某一位置以確定該被試在團體中的相對地位。這種標定可以通過原始分數(Raw Score)轉換成量表分(Scale Score),或稱導出分數。CTT將這種類型的測驗稱為常模參照測驗(Norm-referenced Test),與此相對應的稱為標准參照測驗(Criterion-referenced Test),其測驗分數的解釋與轉換方法有所不同。
(5)標准化(Standardization)
所謂標准化是指對測驗實施程序、對象范圍、施測環境、測試方式、測驗時限、分數解釋(常模)作了統一的規定,使測驗能夠在異時、異地,不同的主試等條件下進行,並能得到同等有效的測驗結果。標准化的思想主要來自於自然科學中對實驗條件進行嚴格控制以降低測量誤差,其方法主要源自實驗心理學中對無關變數和干擾變數控制的方法。
2 概化理論
凡測量都有誤差,誤差可能來自測量工具的不標准或不適合所測量的對象,也可能來自工具的使用者沒有掌握要領,也可能是測量條件和環境所造成,也可能是測量對象不合作所引起。總之產生測量誤差的原因是多種多樣的,而CTT理論僅以一個E就概括了所有的誤差,並不能指明哪種誤差或在總誤差中各種誤差的相對大小如何。這樣對於測量工具和程序的改革沒有明確的指導意義,只能根據主試自己的理解去控制一些因素,針對性並不強。鑒於此種情況,二十世紀六十至七十年代初,克倫巴赫(Cronbach)等人提出了概化理論(Generalizability Theory)簡稱GT理論。
GT理論的基本思想是,任何測量都處在一定的情境關系之中,應該從測量的情境關系中具體地考察測量工作,提出了多種真分數與多種不同的信度系數的觀念,並設計了一套方法去系統辯明與實驗性研究多種誤差方差的來源。並用「全域分數」(Universe Score)代替「真分數」(True Score),用「概括化系數,G系數」(Generalizability Coefficent)代替了「信度」(Reliabilty)。
概化理論認為,測量的總方差可以分解為代表目標測量的方差成分和構成誤差的種種方差成分。測量工作中要加以認識和予應用的心理特質水平是測量目標。而構成測量條件與具體情境關系的因素,稱為測量側面(Facets of Measurement)。如學生閱讀能力測驗,其目的是對學生閱讀能力的測量,因此,閱讀能力就成為測量目標,除此外試題的水平和評分者等因素也會影響測驗的總變異。這兩個因素就是測量側面。這里對學生閱讀能力的測量是在雙側面情境的條件下進行的。測量側面中的單個事例叫側面的水平,如有兩個評分者甲和乙,則評分者這一側面就有兩個水平。測量側面又分為隨機側面和固定側面。隨機側面是指測量側面中所包含的各水平中是類似水平的隨機樣本,而非固定不變的側面,如大規模考試中評分者每次都有可能不同,由這樣變化的評分者所組成的測量側面就稱為隨機側面。固定側面是指在各次實施中測量側面的所在水平一直保持不變的測量側面,如標准化的心理測驗中測驗的項目總是一樣,這樣的側面就叫固定側面。因此,進行測驗的標准化就是對某些測量側面進行固定。固定測量側面可以減少測量誤差,但卻會使測量目標變得更為局限。比如,把閱讀理解題定為對科技說明文,這時,所測的特質就不再是一般的閱讀理解能力,而是特定的對科技說明文的理解能力了。這樣,測驗所得的分數就不能再推廣到原來那麼寬廣的范圍了。
概化理論強調,測量目標是具體的,並不是絕對固定不變的。因而全域分數也就不固定,可以有多種。一方面,當固定側面時,側面本身會轉化為測量目標的一部分(如對一般閱讀理解能力的測量轉變為對科技說明文的測量),測量目標要局限化;另一方面,當測量中考察目的與應用需要改變時,測量目標對象就可能完全轉移。比如,當作文考試結果是要對考生作判斷時,測量目標就是考生的作文能力,若要把評分嚴與評分寬的評分者區分開,評分者的能力就成了測量目標,也即測量目標就完全發生了轉移。顯然,測量目標不同時,標志測量目標的分數也就不同。測量目標在具體關系條件下的分數叫全域分數。這樣,有時對同一批測量資料來說,當測量工作的具體關系變化時全域分數也會變。即同一測驗資料就可能有多種全域分數。
概化理論把全域分數方差對總變差的比稱為為概括力系數(簡稱G系數)。而總方差可以分成全域分數方差(δ2 (p)和誤差分數方差(δ2(δ)),如果測驗是常模參照性測驗,則G系數E2ρ是評價測驗穩定性程度的最佳指標:
即: E2ρ=(δ2(p))/[ δ2(p) +(δ2(δ))]
若該測驗是標准參照性測驗,則其依存性j指標是測驗穩定一致性的最好指標。
j=(δ2(p))/[ δ2(p) +(δ2(△))]
上兩式中,誤差方差δ2(δ)可能是很多項的和,如上例中考生的閱讀理解能力的方差是標志測量目標的方差,即為全域分數方差記為(δ2(p)),而試題、評分者及三個主效應間的交互作用方差(共有7種方差成分)都不應包括在全域分數方差之中,作為誤差方差(δ2(δ))的一部分,是構成總方差的成分之一。由此可見,當全域分數方差不變,而誤差分數方差增大時,概括力系數值降低,信度降低。反之,當全域分數方差增大,而誤差分數方差不變,則概括力系數增大,信度提高。所以,隨著測量情境關系的變化,測量目標與側面的變動,概括力系數即信度也就會不同。同一批資料就可能有多種不同含義與取值的概括力系數。一般說來,增大概括力系數的方法有兩種:第一種是,固定測量側面(如固定試題)。第二種是增加側面所包含的水平數(如增加試題或評分者數目)。(漆書青,1993)
概化理論是用方差分析的方法來全面估計出各種方差成分的相對大小,並可直接比較其大小。雖然真分數理論也可以分別地估出某一方差成分的大小,如代表試題側面的內部一致性系數,代表評分者側面的評分者信度等,正因為是單獨估出的,這些值之間不能直接比較,也只有對主效應作估計,而不能對交互作用進行估計。而概化理論卻能做到這一點。它既能估計出主效應,也能估計出交互作用效應,並能對各估計值的大小進行直接比較。在概化理論中,理論估出各方差成分相對大小的過程,叫概化理論的概括分研究階段或稱G-研究階段。
概化理論並不內靜止地分析各種誤差來源,還要在G-研究的基礎上,通過實驗性研究,進一步考察不同測驗設計條件下的概括力系數的變化狀況,如固定側面或增加側面水平下的變化狀況,從而探求到最佳的控制誤差的方法,作出最佳的設計決策,從而改進測驗的內容、方式方法提供了有價值的信息。這一階段稱作決策研究或稱D-研究階段。
GT在研究測量誤差方面有更大的優越性,它能針對不同測量情境估計測量誤差的多種來源,為改善測驗,提高測量質量有用的信息。其缺陷是統計計算相當繁雜,如果藉助一些統計分析軟體可以解決這一問題。GT理論目前在我國還處於實驗研究階段,在面試、考核等主觀性測評中有一些應用(劉遠我,張厚粲,1998)
3 項目反應理論
任何一種理論都不可能是完美無缺的,作為測量初期發展起來的理論更是不可避免地存在著一些缺陷。項目反應理論(Item Response Theory, IRT)則是在反對和克服傳統測量理論的不足之中發展起來的一種現代測量理論。
無論是CTT還是GT,其測驗內容的選擇、項目參數的獲得和常模的制定,都是通過抽取一定的樣本(行為樣本或被試樣本),因此可以說二者都建立在隨機抽樣理論基礎之上。它們的局限性主要表現在以下四個方面:
(1)測量結果的應用范圍有限。一般來說,對測量誤差的控制有三種方法:配對或標准化、隨機化、統計調整。配對或標准化技術的應用使得誤差變數的影響不能解釋測量結果的差異,隨機化技術的應用可使誤差變數的影響不能在測量結果上形成系統誤差。統計調整技術建立在數學模型基礎上,將誤差變數的影響參數化,從而在測量中調整參數估計值,減少誤差變數的影響。經典測驗理論主要應用的是配對或標准化技術和隨機化技術。然而,使用配對或標准技術的測量結果僅僅能在相同的測量條件下成立,卻不能將其拓展到非標准化的環境之中去,使得測量的應用受到很大的限制。
(2)測量分數賴性於具體的測驗(內容)。經典測量理論控制誤差應用標准化技術,但其標准化的對象是測驗的各種外部變數,對測驗的內部變數即測驗的項目的「性質」這一變數卻沒有也不可能實現標准化。這就造成了測驗分數對具體測驗的依賴性,迫使經典測驗理論要麼使用統一的試卷,要麼使用實際上並不平行的所謂「平行試卷」。這種處理方法,即給實際操作帶來困難,也給結果的解釋帶來較大的誤差。
(3)測量參數依賴於被試樣本。經典測量理論構造了一個完整的理論體系,同時設計了一套參數指標來刻劃測量各方面的特性。如測驗的信度、效度、項目的難度、區分度等。但是這些參數的估計對樣本的依賴性是很大的。測驗的信度和效度採用相關分析法,同樣受到樣本的影響。為避免抽樣誤差對參數估計的影響,經典測量理論特別強調樣本對總體的代表性。但經典理論所應用的是隨機抽樣,隨機抽樣總是偏差存在。何況在實際工作中,由於客觀條件的限制,還不能做到隨機抽樣。因此,參數估計值對樣本的依賴性使得所估參數對測驗的分析的價值是有限的。
(4)信度估計的精確性不高。測量的重要目標就是降低測量誤差,提高測量的精度。在經典測量理論中,信度被定義為真分數的變異在總變異(觀測分數)中所佔的比率。然而,真分數的方差是無法求取的,誤差的方差也無法計算。為了估計信度,CTT就提出了平行測驗的概念,並在此基礎上推演出了若干個信度估計公式。但是嚴格的平行測驗是不存在的,等價測驗也很難獲得的,在此基礎上估計的測驗信度很難達到比較高的精確程度。另外,經典測量理論中的信度估計值也是一個籠統值,即假定對不同能力水平的被試來說,測量的誤差是相同的。而事實是,一份測驗只有在施測於能力水平與測驗難度相當的被試時容易獲得比較高的測量精確度。當測驗施測於能力水平高於(或低於)測驗難度的被試時就容易產生較大的測量誤差。而且測量誤差值會隨著被試水平與測驗難度距離的增加而變大。
項目反應理論研究是以潛在特質為假設並從項目特徵曲線開始。所謂項目特質曲線就是用能穩定反映被試水平的特質量表分代替被試卷面總分作為回歸曲線的自變數,並把求得的被試在試題上正確作答概率對特質分數的回歸曲線稱為項目特質曲線(Item Characteristic Curve,簡稱ICC)。項目反應理論研究中的一項重要工作就是要確定項目特徵曲線的形態,然後寫出這條特徵曲線的解析式,即項目反應函數,也稱為項目特徵函數(Item Characteristic Function,簡稱ICF)。
第一個項目反應理論模型是由洛德於1952年提出的雙參數正態肩形曲線模型。其項目特徵曲線的形狀和函數如下。
θ表示被試特質水平的參數;Pi(θ)表示特質水平為θ的被試在項目I上正確回稱的概率。從理論上講,θ的取值在-∞和+∞之間,當θ=-∞時Pi(θ)為0,當θ=+∞時Pi(θ)為1;bi為項目難度參數,它與特質θ定義在同一個量表上。取θ=bi代入上式,得Pi(θ)=0.5,可見b點是肩形曲線的對稱中心,也是曲線的拐點;ai稱為項目的區分度參數。從圖中可以看出,ai是曲線在拐點bi處的切線斜率的函數,即
自洛德提出第一個IRT模型後,許多學者投入到此領域的研究中,提出了很多種模型,目前應用最多是伯恩鮑姆(Brinbaum)提出的邏輯斯蒂克模型(Logistic
Model)和拉希模型(Rasch Model)。邏輯斯蒂克模型如下:
上式是三參數模型,除了試題的難度參數bi和區分度ai以外,他還增加了一個猜測參數ci, ci通常定義為被試中能力水平遠低於項目難度2/ai個單位的人在該項目實際猜測作答獲得成功的概率。當令ci=0,則上述天參數模型就變成了雙參數模型,如ci=0且ai=1,則變成了單參數模型,邏輯斯蒂克的單數模型與丹麥學者拉希(Rasch)提出的單參數模型是相同的。拉希模型是在實踐中最常用的模型之一,其模型如下:
與CTT理論和GT理論相比,IRT具有以下優點:
第一,項目反應理論深入測驗的微觀領域,將被試特質水平與被試在項目上的行為關聯起來並且將其參數化,模型化,是通過統計調整控制誤差的最好方法。若模型成立並且項目參數均已知,則模型在測驗中為項目性質調整數據,可生成獨立於測驗項目性質的特質水平測量,這是項目反應理論建立項目反應模型的最大優點。也就是通常所說的被試能力估計不依賴於測驗項目的特殊選擇。
第二,IRT模型項目參數的估計獨立於被試樣本。項目特徵曲線是被試作答正確的概率對其潛在特質水平的回歸。而回歸曲線並不依賴於回歸變數本身的次數分布。對於項目反應函數來說,已知特質水平面為θ0的被試在項目i上正確作答的概率僅僅依賴於其值θ0,並不依賴於具有θ0水平的人數有多少,也不依賴於其它θ取值上的人次數。所以,在求取項目特徵曲線的各種參數時,由於回歸線的形狀、位置都不依賴於被試的分布,所以它的參數,包括難度、區分度和猜測參數也都是不變的。
IRT的第三個優點是能力參數與項目難度參數的配套性,亦即項目難度參數與能力參數是定義在同一個量表上的。這樣,對一個能力參數已知的被試,配給一個項目參數已知的試題,我們可以立刻通過模型預測被試正確作答的概率。如果估出被試的能力,我們可以在題庫中選出難度與其能力相當的項目進行新一輪的測試,使得能力估計更為精確。這一特點為自適應測評奠定了基礎。
第四個優良性質是通過模型測得的被試能力水平,可以精確估計其測量誤差。這一優良特性得益於伯恩鮑姆的工作。他把費嘯的描寫測驗信息結構的測度引進了項目反應模型。他提出在項目反應模型下,能力參數未定的被試在n個測驗項目上的信息測度可由下式給出。其中Ii(θ)是項目i上的信息,Pi』(θ)是Pi(θ)的導數。
利用IRT這些優良性質,可以開發優質題庫,可以按測量精度目標編制各種測驗試卷,可能實施測驗等值,可以偵察測驗項目功能偏差,可以實現計算機化的自適應測驗(CAT)。
項目反應理論的發展除了自身的基本理論系統,模型種類,數據模型擬合檢驗方法和參數估計方法的發展之外,在實際應用方面也有很大成就,主要表現在三個方面:一是指導測驗編制。伯恩鮑姆和費嘯的測驗信息結構的測度引入測驗,導致通過建立測驗信息目標函數來影響測驗的結果,從根本上改善了測驗編制的指導思想。在此基礎上發展起了多種測驗編制指導方法,特別是對目標參照性測驗編制的指導,一改經典測驗理論軟弱無力的指導狀況。二是計算化自適應測驗的興起,其三是項目反應理論認知測量模型的出現,將測量導向與認知心理學相結合的方向,應用測量模型直接探索人的認知結構。
IRT的優良特性確實是測評希望達到的理想狀態,但也存在著一定的局限性,首先它假定所測的特質是單維的,這只是一種理想狀態,在現實中很難滿足這一假設。其次,現有的IRT模型主要是針對的是二級評分試題(即只有正確與錯誤兩種答案的試題),而對多級評分的試題模型,雖說有一些探索,但還不是太成熟。第三,IRT的參數估計不依賴於特定的樣本,但是要使參數的估計具有穩定性,需要大樣本才可以,而在現實的測評中要對大量的試題進行大樣本測試以獲取穩定的參數估計值,其人才和物力的投入都是相當可觀的。上述問題都制約了IRT理論在實踐中應用的推進程度。但必須提出的是,IRT代表了現代測量理論的發展方向,隨著統計理論成熟和計算機技術的普及和測評需求的發展,IRT理論將逐步擴大其的現代人才測評中的應用范圍。
上述三種測量理論構成了現代人才測評的理論基石。三種理論各有長短,經典理論容易理解、操作簡單,體系完整,在現實中更易於被接受,因為適應面很廣。GT理論主要解決測量誤差的問題,對於分析測量的信度有一定優勢。IRT理論數理邏輯嚴密,測量精度高,但對使用者的素質和客觀條件都有很高的要求,故應用的范圍受到限制。在人才測評實踐中,要根據具體的測評對象、目的和具備的條件選擇恰當的理論來指導測評工作。當然如果能將幾種測量理論的優勢結合起來則會獲得更好的測評結果。
H. 心理與教育測量的目錄
前言
第一章經典測量理論概述
第一節測量誤差與真分數
第二節經典的信度理論
第三節誤差的來源
第二章信度分析
第一節信度的概述
第二節重測信度系數和復本信度系數的估計
第三節同質信度系數和評分者信度系數的估計
第四節影響信度的因素
第三章效度分析
第一節效標關聯效度的分析
第二節內容效度的分析
第三節構想效度的分析
第四節各種效度的關系及影響效度的因素
第四章概化理論
第一節概化理論概述
第二節單側面設計
第三節隨機雙側面設計研究
第五章項目反應理論概述
第一節項目反應理論產生的原因和發展史
第二節項目反應理論的基本原理
第三節項目反應理論的數學模型
第四節信息函數
第六章參數估計
第一節項目參數已知的能力參數估計
第二節能力參數已知條件下項目參數估計
第三節項目與能力參數的聯合極大似然估計
第七章項目反應理論的新進展
第一節多值評分項目的單維模型
第二節多維模型
第三節其他模型
第八章項目反應理論的應用
第一節項目反應理論指導下的題庫建設
第二節計算機自適應測驗
第九章心理測驗的編制
第一節心理測驗編制的一般程序
第二節心理測驗的編制實例
第三節學績測驗的編制
第十章測驗等值
第一節測驗等值概述
第二節隨機等組設計的測驗等值方法
第三節鉚測驗等值方法
第四節項目反應理論等值
第十一章項目功能差異
第一節項目功能差異簡介
第二節項目功能差異的偵查方法
第三節相關問題的討論和實際應用
參考文獻
I. 等價類測試方法的一般測試步驟是什麼如何劃分等價類
1,先確定等價類別
2,找出有效等價類和無效等價類
3,邊界值找好,盡可能多的找的會有重復的數據
4,有效等價類盡可能條件符合的歸一起不要重復
5,無效等價類單獨寫開
6,寫好測試用例
7,執行測試用例