常用的测验等值方法_常见的测试用例设计方法都有哪些请分别以具体的例子来说明这些方法在测试用例设计工作中的应用

A. 如何选择一个良好的心理测验工具

建议不要自己施测，要在专业人员的指导下使用心理测验……且测验不是万能的，不要尽信测验哦……O(∩_∩)O~

一、测验的选择

测验的选择是使用测验的前提之一。选择测验必须注意两个方面。

（一）所选测验必须适合测量的目的

测验是进行科学研究和解决实际问题的一个工具，测验的选择首先必须符合我们使用测验的目的。由于每一个测验都有其特殊的用途和使用范围，所以测验使用者首先要对各种测验的功用及特长、优缺点有一个了解。不但不同的目的要选用不同的测验，而且不能只是根据测验名称盲目地选择测验。必须了解该测验的真正适用范围和功效，否则就会造成测验使用不得当。

（二）所选测验必须符合心理测量学的要求

选测验不能仅根据测验目的，还应考虑该测验是否经过了标准化，它的信度、效度如何，常模样本是否符合你的测试对象，常模资料是否太久而失效，等等。

所谓信度，是指测量的一致性程度。一个好的测量工具必须稳定可靠，即多次测量的结果要保持一致，否则便不可信。效度指的是测量的正确性。效度所要回答的基本问题是：一个测验测量什么特性？它对所要测量的特性测得有多准？

何谓常模？在心理测验中，通常根据一个人在所比较的团体内的相对等级来报告他的成绩，这里用来做比较的参考团体叫常模团体，常模团体的分数分布就叫常模。

在现实生活中，许多人将一些通俗读物或报刊杂志上的测验当作正式的心理测验来使用，实际上这些测验大多不符合心理测量学的要求，可信度不大，仅是供娱乐消遣之用，但许多人却十分信服。即使是真正的心理测验，倘由个人自行施测，不懂得分数如何解释，也会产生不良后果。例如，有人通过一些书籍上的测验自行对照，判断自己是神经症，因而终日惶恐不安。因此，不具备心理测验知识的个人最好不要自己盲目选择测验及自行施测、解释，而应由在专门的心理测验机构中接受过专业训练的人员来操作。

在选择测验这一环节上，出现的另一个问题是，许多人常使用没有重新标准化的经典测验。标准化测验必须经常修订，使测验内容、常模样本、分数解释更符合变化了的时代。目前，就连许多专业人员使用的测验也大多是许多年前的老版本。更有甚者，有人还将国外的测验直接译过来使用，而不考虑是否符合我国国情，这种做法是不值得提倡的。

二、测验的施测与评分

(一）准备

测验前的准备工作是保证测试顺利进行和测验实施标准化的必要环节。准备工作主要包括以下几个方面。

1．预告测验

事先应当通知受测者，保证受测者确切知道测验的时间、地点、内容范围、试题的类型等，使受测者对测验有所准备，及时调整自己的情绪和生理状态。心理测验一般不搞突然袭击。当然，根据需要有时可以不告知真实目的。

2．施测者自身的准备

施测者首先要熟悉测验指导语并能流利地用口语说出来，这是对心理测验实施的最基本的要求。熟悉指导语会使测验进行得顺利，否则，测验的效果会受到一些影响。

其次，施测者还必须熟悉测试的具体程序。测验的实施并不仅仅是分发、收集试卷，对于某些个别测验和团体测验来说，测验的实施必须由受过专门训练的人来完成。例如，韦氏智力量表包括言语、操作两大部分，操作部分的测试涉及到物体如何摆放、如何示范等具体程序；而针对聋哑儿童使用的希内学习能力测验更为复杂，甚至包括手势语的应用；某些团体施测还涉及幻灯显示的问题。施测者的训练，通常包括讲解或阅读测验手册、观察演示和操作练习等。这种训练根据测验的种类及施测者的条件，时间长短可以不同。

最后，施测者必须做好应付突发事件及受测者提问的心理准备。例如，智力测验过程中，学生由于过分紧张而晕倒或夏季中暑，精神病人突然发作，有人作弊或突然停电，等等。这些都需要施测者有良好的心理准备，并有一些应急措施。

3．测验材料的准备

测验材料包括测验题目、答卷纸、记分键、指导书、纸、笔及计时表等必需材料、工具。同时，施测者还应当详细地模拟一遍测验，以观察材料是否准备齐全。

4．测验环境的准备

心理测验对环境的要求很高。许多研究表明，测验环境会对测验的结果造成影响。例如，一个人在酷暑和正常天气下所做的智力测验的结果会有差别。因此，施测者必须对测验时的光线、通风、温度及噪音水平等物理条件做好安排，统一布置。测验房门上最好有牌子，示意测验正在进行，不许随便进入。

(二）施测

选择好测验并做好充分准备后，就可以施测了。实施标准化测验的基本原则是努力减少无关因素对测验结果的影响。对于标准化的测验，施测者必须按照规定的程序施测，才能得到可靠的结果。有些人在使用测验时，由于不了解测验标准化的意义及方法，因此往往任意变更施测的程序，忽视测验实施的各种要求(例如指导语、记分方法等），而导致结果的误差。

1．指导语

指导语一般是指对测验的说明和解释，有时包括对特殊情况发生时应如何处理的指示。在实施测验时，必须使用统一的指导语。

指导语通常包括两部分，一部分是对受测者的指导语，另一部分是对施测者的指导语。

在纸笔测验中，对受测者的指导语一般印在测验的开头部分，由受测者自己阅读或施测者统一宣读。指导语应力求清晰、简明扼要且有礼貌。一般由以下内容组成：

(1）如何选择反应形式(画、口答、书写等）；

(2）如何记录这些反应(答卷纸、录音、录像等）；

(3）时间限制；

(4）如果不能确定正确反应，应如何去做(是否允许猜测等）；

(5）例题(当测验采用陌生形式时，例题是必要的）；

(6）有时告知测验目的。

施测者念完指导语后，应再次询问受测者有无疑问。回答时应当严格遵守指导语，不应对测验作出额外的解释，因为施测者的暗示会对受测者产生影响。对受测者的指导语应简短，不能占用太长的时间，以免引起受测者的焦急及反感情绪。

对施测者的指导语主要是对测试细节的进一步说明，以及在测验中途发生意外情况(如停电、迟到、生病、作弊等）如何处理等。这部分指导语往往印在测验指导书中，对施测者的一言一行都作了严格要求。

总之，指导语对受测者的反应态度、反应方式及施测者的行为方式、说话方式作了严格的规定。

2．时限

时限也是测验标准化的一项内容。施测者应事先告诉受测者该测验具体的时间限制。对于有分测验的测验，施测者应根据有关时限的操作语执行。例如在速度测验中，尤其要注意时间限制，不得随意延长或缩短。

(三）记分

记分的标准化关键是使评分的方法尽量客观化，使得不同评分者对同一测验反应(答案）赋予相近的分数。许多测验采用选择题等客观题型，无疑使记分更简便、客观。一些标准化测验配有记分键，即标有标准答案及正确反应的模板，或者采用光电阅读机记分，对于论文式作答的测验则给予记分要点。标准化的记分方法应力求客观、准确、经济、实用。

施测者在实施过程中，记分应当做到下面几点。

（1）对受测者的反应给予及时而清楚、详细的记录，特别是对口试和操作测验，此点尤其重要，必要时可录音和录像。对于测验的环境及测验时的一些突发事件，施测者也应给予详细记录，以供解释时参考。

（2）施测者应当熟练掌握记分键，特别是非客观题目的记分要求，不得随意记分。标准化测验在手册中都有关于记分原则和方法的说明。例如，在韦氏智力测验中，对于什么样的反应得1分、2分、3分都有详细解释，并举了一些例子。作为施测者，应当以客观、公正的态度严格依据记分键或评分标准记分。

（3）在施测的过程中，对于受测者的反应，施测者不应做出点头、皱眉、摇头等暗示性的反应，这会影响受测者后面的测试。施测者应时刻保持和蔼、微笑的态度。另外，在个别施测时，施测者不应让受测者看见记分，可用纸板等物品挡着。这样做一是避免影响受测者的测验情绪，二是避免分散受测者的注意力。

三、测验分数的解释与报告

施测者对测验结果可依据常模或其他参照标准作出解释。一般在测验手册中对于各种分数的意义都作了详细的说明。

(一）分数的转化

施测之后，将受测者的反应与答案作比较即可得到每个人在测验上的分数。这种直接从测验上得到的分数叫做原始分数。原始分数本身没有多大意义。譬如，某位学生成绩单上写着数学85 分、语文80分，由此并不能看出他成绩的好坏，也不能看出他哪一门学得更好。为了使原始分数有意义，同时为了使不同的原始分数可作比较，必须把它们转换成具有一定的参照点和单位的测验量表上的数值。通过统计方法由原始分数转化到量表上的分数叫做导出分数。有了导出分数，才可以对测验结果做出有意义的解释。

根据解释分数时的参照标准不同，可以将导出分数分为常模参照分数与标准参照分数两大类。

1．常模参照分数

常模参照分数是把受试者的成绩与具有某种共同特征的人所组成的有关团体作比较，即根据一个人在常模团体内的相对位置来报告他的成绩。制定常模需要三步：确定有关的常模团体；获得该团体成员的测验分数；把原始分数转化为量表，该量表能把个人分数表示成在团体内的相对位置。

常用的常模参照分数有以下几种。

(1）发展量表

发展量表分为年龄量表和年级当量。一个学生在年龄量表上所得的分数，代表他的心理年龄。例如，一个孩子的智龄为5岁，表示他的智力达到5岁孩子的水平。所谓年级当量，是把学生的测验成绩与各年级学生的平均成绩比较，看他相当于几年级的水平。

(2）商数

1916年推孟修订的斯坦福—比奈量表中采用了智商的概念。智商(IQ）被定义为智龄(MA）与实际年龄(CA）之比。为避免小数，将商数乘以100。与智商类似的还有教育商数(EQ）和成就商数(AQ）等。

(3）百分等级

一个分数的百分等级可定义为在常模团体中低于该分数的人数百分比。等级越低，个体所处的地位越差。

(4）标准分数

标准分数是将原始分数与平均数的差距以标准差为单位表示出来的量表。标准分数分为两类：线性转换的标准分数和常态化的标准分数。线性转换的标准分数，是将某人的原始分数减去常模团体的平均分，其差数再除以标准差即得。常态化的标准分数，先把原始分数转化为百分等级，然后从正态曲线面积表中查得对应的标准分数。根据正态曲线面积表得到的标准分数是个理论值，它与线性转换得到的标准分数有区别。原始分数越接近正态，常态化标准分数与线性导出分数就越接近。

2．标准参照分数

一种标准是对测验所包括的材料熟悉或掌握的程度，将分数与此种标准比较可以搞清一个人知道什么和能做什么。因为涉及的主要是测验的内容，所以把这种分数叫做内容参照分数。另一个比较标准是用预期的效标成绩来解释测验分数，因为涉及的是后来的结果，所以把这种分数叫做结果参照分数。

(二）分数的解释

解释分数要注意以下几个问题。

一个人在任何一个测验上的分数，都是他的遗传特征、测验前的学习与经验以及测验情境的函数，这三个方面对测验成绩都有影响。所以我们应该把测验分数看成是对受测者目前状况的测量，至于他是如何达到这一状况的，则受许多因素影响。为了能对分数做出有意义的解释，必须将个人在测验前的经历或背景因素考虑在内。例如，一个学生可能因为身体不适、情绪不好、不懂施测者的说明或意外干扰而得到较低的分数，也可能因为某些偶然情况而得到意外的好分数。无论哪种情况，都要找出造成分数反常的原因，而不要单纯根据分数武断地下结论。

为了对测验分数做出确切的解释，只有常模资料是不够的，还必须有效度资料。没有效度证据的常模资料，只告诉我们一个人在一个常模团体中的相对等级，不能作预测或更多的解释。在解释分数时，人们最常犯的错误就是仅根据测验的标题和常模数据去推论测验分数的意义，而忽略效度的不足或缺乏。假若一个测验的名称是内向量表，并有可利用的常模资料，那么就很容易把得高分的人说成是内向性格，即把它当做有效度资料那样来解释。即使是有效度资料，在对测验分数做解释时也要十分谨慎，因为测验效度的概化能力是有限的。不同的常模团体和不同的施测条件，往往会得到不同的结果。在解释分数时，一定要依据从最相匹配的团体和最相近的情境中获得资料。

由于测验不是完全可靠(信度不足），应该永远把测验分数视为一个范围而不是一些确定的点，也就是要对测验分数提供带形的解释，即指出真实分数落在某个区间的可能性有多大。倘若使用确切的分数，应说明这些分数不是精确的指标，而是我们对某人真实分数的最佳估计。

对来自不同测验的分数不能直接加以比较。即使两个测验名称相同，由于所包含的具体内容不同(因而所测量的特质不完全相同），建立标准化样本的组成不同，量表的单位(如标准差）不同，其分数也不具备可比性。如来自两个成就测验的分数，在没有其他信息的情况下，我们无法判断孰高孰低。为了使不同测验分数可以比较，必须将二者放在统一的量表上。当两种测验取样的范围相同时，人们常用等值百分位法将两种测验分数等值化。具体做法是：将两个测验都对同一个样本进行施测，并把两种测验的原始分数都转换成百分等级，然后用该百分等级作为中介，就可以做出一个等价的原始分数表。如果在测验A中原始分数55是90百分等级，而在测验B中原始分数36也是90百分等级，那么测验A的55分就与测验B的36分等值。另一种方法是不用相同的百分等级作为中介，而用相同的标准分数作等值的基础，此种方法叫线性等值。

(三）结果的报告

为了使受测者本人以及与受测者有关的人，如家长、教师、雇主等，能更好地理解分数的意义，在报告分数时要注意以下几个问题。

使用当事人所理解的语言。测验像其他特殊领域一样，具有自己的专业词汇，因此你所理解的词并不意味着当事人也一定理解。例如，你懂得标准差和标准分数，然而当事人可能不懂。因此，你必须用非专业性的用语来解释标准分数，可以把它解释成相对位置(即百分等级）。必要时，可以问问当事人是否听懂了，让他说说你的解释是什么意思。

要保证当事人知道这个测验测量什么或预测什么。这里并不需要作详细的技术性解释。例如，你并不需要向当事人解释职业兴趣调查表的编制过程，但应该让他知道，职业兴趣量表是把他的兴趣和从事各种职业的人加以比较。如果在某一方面得了高分，就意味着如果他参加这个工作会长期干下去。但另一方面，也不能过于简单，只告诉当事人某个量表的标题或测量什么是不够的，这在具有情绪色彩的人格特征方面特别重要。例如，对人格测验中的男性化、女性化量表就要加以解释，以免被试误解。

如果分数是以常模为参照的，要使当事人知道他是和什么团体在进行比较。例如，同一个百分等级对于普通学校和重点学校意义是不同的。

要使当事人认识到分数只是一个“最好”的估计。由于测验的信度、效度不足，分数可能有误差，而且对于一个团体总体来说，有效的测验不一定对每个人都同样有效，但也不能让被试感到分数是毫不足信的。

要使当事人知道如何运用他的分数。当测验用于人员选择和安置问题时，这一点是特别重要的。要向当事人讲清，测验分数在作决定过程中起什么作用，是完全由分数决定取舍，还是只把分数作为参考；有没有规定最低分数线；测验上的低分数能否由其他方面补偿，等等。

要考虑测验分数将给当事人带来什么心理影响。由于对分数的解释会影响受测者的自我认识、自我评价，从而会影响他的行为，所以在解释分数时一方面要十分慎重。另一方面又要做必要的思想工作，防止被试因分数低而悲观失望或因分数高而骄傲自满。

要让当事人积极参与测验分数的解释。毕竟分数是他的不是你的，作出的决定会影响他的生活而不是你的生活，因此在解释分数的各个阶段，你都应观察他的反应，鼓励他提出问题。虽然测验分数的信息有限，但考虑到分数能够引起一连串的事件，严重地影响一个人的生活，因此，你必须保证他完全了解分数的表面意义和隐含意义。除非当事人积极地参与这个过程，否则你无法了解他对于自己的分数有了多大程度的理解。

心理测验是一种辅助工具，受测者的表现还受到许多其他因素影响，因此不能过于夸大心理测验的作用。

B. 常见的测试用例设计方法都有哪些请分别以具体的例子来说明这些方法在测试用例设计工作中的应用

1）等价类划分划分

等价类是指某个输入域的子集合。在该子集合中，各个输入数据对于揭露程序中的错误都是等效的。并合理地假定:测试某等价类的代表值就等于对这一类其它值的测试。因此，可以把全部输入数据合理划分为若干等价类，在每一个等价类中取一个数据作为测试的输入条件，就可以用少量代表性的测试数据。取得较好的测试结果。等价类划分可有两种不同的情况:有效等价类和无效等价类。

2）边界值分析法

边界值分析方法是对等价类划分方法的补充。测试工作经验告诉我，大量的错误是发生在输入或输出范围的边界上，而不是发生在输入输出范围的内部。因此针对各种边界情况设（面试题目：什么样的工作环境适合你&#from一个常见的软件测试面试题来自end#lt；结束）计测试用例，可以查出更多的错误。

使用边界值分析方法设计测试用例，首先应确定边界情况。通常输入和输出等价类的边界，就是应着重测试的边界情况。应当选取正好等于，刚刚大于或刚刚小于边界的值作为测试数据，而不是选取等价类中的典型值或任意值作为测试数据。

3）错误推测法

基于经验和直觉推测程序中所有可能存在的各种错误，从而有针对性的设计测试用例的方法。

错误推测方法的基本思想：列举出程序中所有可能有的错误和容易发生错误的特殊情况，根据他们选择测试用例。例如，在单元测试时曾列出的许多在模块中常见的错误。以前产品测试中曾经发现的错误等，这些就是经验的总结。还有，输入数据和输出数据为0的情况。输入表格为空格或输入表格只有一行。这些都是容易发生错误的情况。可选择这些情况下的例子作为测试用例。

4）因果图方法

前面介绍的等价类划分方法和边界值分析方法，都是着重考虑输入条件，但未考虑输入条件之间的联系，相互组合等。考虑输入条件之间的相互组合，可能会产生一些新的情况。但要检查输入条件的组合不是一件容易的事情，即使把所有输入条件划分成等价类，他们之间的组合情况也相当多。因此必须考虑采用一种适合于描述对于多种条件的组合，相应产生多个动作的形式来考虑设计测试用例。这就需要利用因果图(逻辑模型)。因果图方法最终生成的就是判定表。它适合于检查程序输入条件的各种组合情况。

5）正交表分析法

有时候，可能因为大量的参数的组合而引起测试用例数量上的激增，同时，这些测试用例并没有明显的优先级上的差距，而测试人员又无法完成这么多数量的测试，就可以通过正交表来进行缩减一些用例，从而达到尽量少的用例覆盖尽量大的范围的可能性。

6）场景分析方法

指根据用户场景来模拟用户的操作步骤，这个比较类似因果图，但是可能执行的深度和可行性更好。

C. 心理测量学中的预测源是指什么

心理量表的测量本质上属于顺序测量，即分数与分数之间不具有相等的单位，而为了进一步进行统计分析，只能把这些分数看作是等距变量。目前为止，还没有完全实现测量单位客观化的心理测量方法。

D. 各位楼主谁知道哪里有2008年心理学考研真题，谢谢

这里有一份最全的考研历年真题资料分享给你

链接:https://pan..com/s/1liaK4BXq1uwkEyN3bkrcLA

提取码:i7bd

通过不断研究和学习历年真题，为考生冲刺阶段复习提分指点迷津，做真题，做历年真题集，对照考纲查缺补漏，提高实战素养，制定做题策略，规划方向；

若资源有问题欢迎追问！

E. 解释受测者的心理测量分数时应该注意哪些问题

第一章心理与教育测量概论
本章考核知识点和考核要求
一、识记
（一）测量的定义：P2
测量是依据一定的法则，使用量具对事物的特征进行定量描述的过程。
（二）测量的基本要素：P4
任何测量都必须具备两个基本要素，即测量的参照点和测量的单位。
（三）心理与教育测量的定义：P6—7
依据一定的心理学和教育学理论，使用测验对人的心理特征和教育成就进行定量描述的过程。
二、领会
（一）测量量表的4种类型：P5
命名表、顺序量表、等距量表、比率量表
（二）心理测验的4个基本条件：P9—12
1、行为样本 2、标准化 3、难度或应答率 4、信度和效度
（三）心理测验的5种不用分类：P12—14
1、按测量对象所作的分类：
智力测验、能力倾向测验、成就测验、人格测验
2、按测量方式所作分类：
个别测量、团体测量
3、按测验内容的形式所作的分类：
文字测验、非文字测验
4、按测验功能所作的分类：
成就测验与预测测验、难度测验与速度测验、描述测验与诊断测验
5、按评价所参照的标准分类：
常模参照测验、目标参照测验、潜力参照测验

第二章心理与教育测量的产生与发展
考核知识点与考核要求
一、识记：
（一）高尔顿的主要贡献：P28
1、英国优生学的创始人。出版了《遗传的天才》一书，提出人的能力是由遗传而来的，其差异是可以测量的。
2、1884年，成立“人类测量实验室”，被视为第一个大规模系统测量人的个别差异的尝试。
3、发明了许多测量仪器；是应用评定量表、问卷法、自由联想法的先驱。
4、最重要的贡献之一是把统计方法应用到对个别差异资料的分析之中。
（二）卡特尔的主要贡献：P28
美国心理学家，1890年，首次提出“心理测验”这一术语，他的许多观点都已成为测量学上的重要观点。
（三）比内的主要贡献：P29
法国心理学家，1904年，与其助手西蒙合作完成了世界上第一个智力测验量表——比内—西蒙量表。
二、领会：
西方心理学与教育测量的发展：P30
1、智力测验的发展
2、能力倾向测验的发展
3、成就测验的发展
4、人格测验的发展

第三章经典测验理论的基本假设
考核知识点与考核要求
一、识记
（一）测量误差：P40
指在测量过程中由哪些与测量目的无关的变化因素所产生的一种不确定或不一致的测量效应。
（二）随机误差：P40
由与测量目的无关的、偶然因素引起的又不易控制的误差。
（三）系统误差：P40
是那种由与测量目的无关的变因引起的一种恒定而有规律的效应。
（四）真分数：P42
把反映被试某种心理特质真正水平的那个数值称为该特质的真分数，简称T分数。
（五）平行测验：P43
如果两个题目不同的测验测的是同一特质，并且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布都是一致的，则这两个测验被称作平行测验。
二、领会：
（一）测量误差的三个主要来源：P41
测量工具、被测对象、施测过程
（二）观察分数、真分数和随机误差之间的关系：P42—43
观察分数是指实测的分数，它们的关系是：
观察分数被假定等于真分数与误差分数之和，二者关系被假定为线性关系，随机误差服从均值为零的正态分布，它独立与真分数。

第四章测量信度
考核知识点与考核要求
一、识记
（一）信度的含义及测量学的定义：
1、信度的含义：P45指测量结果的稳定性程度，也测量的可靠性。
2、信度的测量学定义：P46乃是一个X（A卷）与它的任意一个平行测验X/（B卷）的相关系数。即RXX=PXX’
（二）重测信度的含义：P48
指用同一个量表对同一组被测试施测两次所得结果的一致性程度。
（三）复本信度的含义：P49
指两个平行的测验测量同一批被试所得结果的一致性程度。
（四）分半信度的含义：P50
指将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。
（五）同质性信度的含义：P51
指多个评分者给同一批人的答卷进行评分的一致性程度。
二、领会：
（一）信度的作用：P47
1、信度是测量过程中所存在的随机误差大小的反映。
2、信度可以用来解释个人测验分数的意义
3、信度可以帮助进行不同测验分数的比较。
（二）重测信度的使用条件：P48
（三）复本信度的使用条件：P49
（四）分半信度的使用条件：P50—51
（五）同质信度的使用条件：P51
（六）影响信度的因素：P55
被测、主试、施测情境、测量工具、两次施测的间隔时间
（七）提高信度的方法：P56
1、适当增加测验的长度，
2、使测验中所有试题的难度接近正态分布，并控制在中等水平，
3、努力提高测验试题的区分度，
4、选取恰当的被试团体，
5、主试者严格执行实测规程，评分者严格按标准给分，减少无关因素的干扰。
三、应用
（一）能用克龙巴赫系数计算项目的同质性信度
克龙巴赫α系数 P52 公式、例题
（二）能用肯德尔和谐系数计算评分这信度
P53 公式 P54 举例
（三）通过增加题目长度来提高测验的信度。
P56

第五章测量效度
考核知识点与考核要求
一、识记
（一）效度的含义：P59
指一个测验或量表时间能测出其所要测的心理特质的程度。
（二）效度的测量学定义：P60
在一系列测量中，与测量目的有关的真实变异数与总变异数（实得变异数）的比率。即
效度=SV2/RXY2
（三）内容效度的含义：P62
指一个测验时间测到的内容与所要测量的内容之间的吻合程度。
（四）结构效度的含义：P63
是指一个测验实际测到所要测量的理论结构和特质的程度。
（五）实证效度的含义：P66
指一个测验对处于特定情境中的个体的行为进行估计的有效性。
（六）效标的含义：P67
就是衡量一个测验是否有效的外在标准。
二、领会
（一）效度的特点：P59
1、效度是一个相对的概念
2、效度是测量的随机误差和系统误差的综合反映
3、判断一个测量是否有效要多个方面搜集证据。
（二）效度与信度的关系：P61
1、信度是效度高的必要而非充分的条件
2、测验的效度受它的信度制约
（三）三种效度的适用范围：
1、内容效度的适用范围P62
成就测验、职业测验
2、结构效度的适用范围P63
智力测验、人格测验等
3、实证效度的适用范围P67
诊断现状、预测个体将来的行为
（四）影响效度的因素P69
测验的构成、实施的过程、被试、所选效标的性质、测量信度
（五）提高效度的方法P70
1、精心编制测验量表，避免出现较大的系统误差
2、妥善组织测验，控制随机误差
3、创设标准的应试情境，让每个被试都能发挥正常的水平
三、应用
三种效度的估计方法
（一）内容效度的确定方法P63
主要是逻辑分析法
（二）结构效度的确定方法P64
1、测验内部寻找证据法
2、测验之间寻找证据法
3、考察测验的实证效度法
4、多种特质——多种方法矩阵法
（三）实证效度的确定方法P68
1、相关法 2、区分法 3、命中率

第六章测验的项目分析
考核知识点与考核要求
一、识记
（一）项目难度的含义：P72
是指测验项目的难易程度。
（二）区分度的含义：P77
是指测验项目对被试心理品质水平差异的区分能力。
二、领会：
（一）难度对测验分数的影响：P76
1、测验难度影响测验分数的分布形态
2、测验难度影响测验分数的离散程度
（二）项目鉴别指数评价题目性能的标准P79 表6—1
（三）区分度的相对性：P85
1、不同的计算方法，所得区分值不同。
2、样本容量大小影响相关法区分值的大小
3、分组标准影响鉴别指数值D
4、被试样本的同质性程度影响区分度值的大小
（四）区分度和难度的关系：P84
1、难度越接近0.50，项目潜在的区分越大
2、难度越接近1.00或0时，项目的潜在区分度越小
三、应用
（一）计算不同形式题目（是非题、选择题、论述题）的难度。P72—74
1、二分法记分形式项目的难度计算P72—73
公式、例题
2、非二分法记分项目的难度计算P73—74
公式、例题
（二）用鉴别指数法计算测验题的区分度P78
鉴别指数的计算P78
公式、例题
（三）根据难度和区分度进行多重选择题的项目分析：P91 表

第七章测验常模
考核知识点与考核要求
一、识记
（一）原始分数和导出分数的含义 P93
1、被试在接受测验后，根据测验的记分标准，对照被试的反应所计算出的测验分数称作原始分数。
2、在原始分数转换的基础上，按照一定的规则，经过统计处理后获得的具有一定参考点和单位，且可以相互比较的分数。
（二）百分等级的含义P94
是应用最广的导出分数，是指在一个群体的测验分数中，得分低于这个分数的人数的百分比。就是说，如果将某一被试群体分为一百个等级，则每位被试所占的等级数就是百分等级。
（三）标准分数的含义和种类：P96
1、含义：又称公分数，是将原始分数与团体的平均数之差除以标准差所得的商数。公式。
2、种类：P97-100。T分数、其他形式、标准九分数。
（四）常模团体的含义：P106
是由具有某种共同特征的人所组成的一个群体，或是该群体的一个样本。
二、领会
（一）标准分数的优缺点
优点：P96，它是一个抽象值，不受原始测量单位的影响，并可接受进一步的统计处理。
缺点：公分数由于计算中经常出现负数和小数，且单位过大，因此使用起来不够方便。P97
（二）确定常模团体的注意事项P106-107：共六点
（三）制定常模的过程P108
1、确定测验将用于哪一个群体。
2、对常模团体进行施测，获得团体成员的测验分数和分数分布。
3、确定常模分数类型，制作常模量表，给出书面说明等。
（四）几种主要的常模参照分数P108-110
1、发展量表P108
2、商数P110分式
三、应用
（一）比较几种导出分数的优缺点P94
1、百分等级分数的优缺点P95
2、标准分数的优缺点P96-97
3、T分数的优缺点P98下
（二）计算未分组资料的百分等级
P94 公式、例题

第八章心理与教育测验的编制与实施
一、领会
（一）心理测验编制的一般程序P117
1、确定测验目的
2、制定编题计划
3、编辑测验项目
4、预测与项目分析
5、合成测验
6、测验标准化
7、鉴定测验
8、编写测验说明书。
（二）编辑测验项目的注意事项P120
共六点
（三）测验标准化应注意的问题：P122
1、测验内容
2、施测过程
3、测验评分
4、测验分数的解释
（四）测验实施过程中应注意的问题：P125
1、施测前的准备工作
2、指导语
3、测验情境
4、测验焦虑
5、与受测者建立良好的协调关系
（五）测验焦虑的相关内容P126
二、应用
（一）项目编排和制作复本的方法
1、项目编排的方法：P121
并列直进式、混合螺旋式
2、制造复本的方法P122
（1）先将所有可用的项目按难度排列，其次序为1、2、3、4、5、6、……
（2）分成两个等值的测验本方法
（3）分成3个等值的没测验本方法
（二）解释测验分数意义时遵循的基本原则P129：共六点
（三）向受测者报告测验分数时的注意事项P131-132共九点
第九章测验等值
一、识记：
（一）测验等值的含义P135
就是通过对考核同一种心理品质的多个测验形式作出测量分数系统的转换，进而使得这些不同测验形式的测验分数之间具有可比性。这样一套专门技术称为～
（二）锚测验的含义：P138
在测验等值设计中，有时会采用一组测验试题来关联两个待等值的测验形式，以便寻找两形式的等值关系，这些测验试题被称为锚测验。
（二）领会
（一）测验等值的条件P136
1、同质性2、等信度3、公平性4、可递推性5、对称性6、样本不变性。
（二）测验等值结果的表示方法：P140
1、表列法2、公式法3、图示法
三、应用
（一）等百分位等值的计算：P142例题
（二）线性等值的计算P143、公式P144例题
第十章目标参照测验
一、识记
（一）目标参照测验的含义：P154
当一个测验是以某一明确界定的内容范围为基础编制而成，并且其分数是参照该内容范围所要求的绝对标准进行解释，我们便称这一测验为～
（二）分类一致性信度的含义：P161
对测验的分类一致性的度量指标，称作～
二、领会
（一）双向细目表的构成要素：P154-155
1、教学目标
2、教学内容
3、在整个内容范围中每一类内容和每一种目标结合后，所占的比重（相对重要性）
（二）测验项目区分度的两类指标P159
1、难度差值
2、相关系数
（三）目标参照测验的效度及其估计P163
1、内容效度及评估重要条件
2、效标关联效度的估计——决策效度。
（四）目标参照测验分数分界点确定的几种方法P165
1、专家判是法2、效标组预测法
三、应用
（一）根据测验项目的内容效度分析来决定项目的取舍P155-158
关键词：专家评定法、项目内容评定表、等级评定均值和中位数分析。
（二）测验项目难度差值的计算分析P158
1、难度分析P158下
2、计算——与常模参照测验相同，以通过率表示。P159，难度差值。
（三）比较目标参照测验和常模参照测验的异同。
1、P152-P153 上，两者差异
2、相同点：P168

第十一章学绩测验
一、识记
（一）学绩测验的含义P170
是对个体在某一阶段的学习或训练之后知识、技能的发展水平的测定。
（二）标准化学绩测验的含义P173
在心理与教育测量学原理指导下，遵循一定的程序所编制的各方面质量都达到规定标准的学绩测验，称为～
（三）斯坦福成就测验P177
属于综合性学绩考查测验，也是一种供团体使用的常模参照性测验，历史比较长。
二、领会
（一）学绩测验的分类P172
1、按测验的编制方法分
2、按测验的内容分
3、按测验用途分
4、按测验评分的参照系分
5、按测验的题型分
（二）标准化学绩测验的基本条件P174
1、命题组卷标准化
2、施测标准化
3、评分标准化
4、测验分数解释标准化
（三）标准化学绩测验的编制过程P175-177。共五点
（四）教师自编课堂测验的特点P182
1、测验形式灵活多样，与测验目的完全一致
2、测验内容与教材内容高度一致
3、测验难度切合学生实际水平
4、测验编制简易快速。
第十二章能力测验（上）
一、识记
（一）几种智力理论的名称、主要代表人物和观点
1、智力的心理测量学理论P188
① 主要代表人物
② 主要观点
2、智力的生物学理论P189
① 主要人物质
② 主要观点
3、智力的认知心理学理论P190
（二）三种常用的团体智力测验名称P206
1、陆军测验
2、瑞文推理测验
3、认知能力测验
二、领会
（一）比内量表的发展阶段P198-199
1、比内——西蒙量表的发展阶段
2、斯坦福——比内量表的发展阶段
（二）韦氏成人智力量表修订本的构成P201
1、1981年修订版P201
2、中国修订本P202-203
（三）斯比量表和韦氏量表的信度估计
1、斯比量表的信效度估计P199
2、韦氏量表的信效度估计P202
（四）瑞文推理测验的三种水平及其优点P206
1、三种水平：标准推理测验，采图推理测验，高级推理测验
2、优点：P207
三、应用
评价传统智力测验存在的若干问题P192-195
共四大点

第十三章能力测验（下）
一、领会
（一）能力倾向测验的特点：P211
1、测验的目的
2、测验的编制
3、测验结果的解释
（二）创造力测验的理论基础P222
吉尔福特发散思维的研究

第十四章人格测量
一、识记
（一）人格测量发展过程中出现几个重要人物P228
1、英国学者高尔顿1884年首倡用科学方法测量人格
2、1892年，克雷培林将联想测验用于临床诊断
3、1919年美国戴德沃斯发表第一个自陈人格量表
4、1920年，罗夏克墨迹测验问世，投射测验由此产生
（二）自陈量表的含义：P230
就是根据要测量的人格特质，编制许多有关的问题，要求受测者根据自己的实际情况逐一回答这些问题，然后根据受测者的答案，去衡量受测者杂一这种人格特质上的表现程度。为完成自陈人格测量而编制的测量工具叫自陈量表。
（三）投射测验的含义：P241
指向受测者提供预先编制的一些未经组织的、意义模糊的标准化刺激情境，让受测者在不受任何限制的情况下，自由地对刺激情境作出他的反应，然后通过分析受测者的反应，推断受测者的人格特质。
三、领会
（一）自陈量表的编制方法和特点：P230
1、编制方法：是否式、二择一式、是否折中式、文字等级式、数字等级式
2、特点：
①题量较大，多数用于测量人格的若干特质
②通常采用纸笔测验
③记分规则简单客观，施测手续简便，测量分数容易获得解释
（二）明尼苏达人格问卷概况P233
（三）卡特尔16种人格问卷概况P235
（四）艾森克人格问卷简介P236
（五）投射测验的理论假设P242
1、人们对外部事物的解释性反应都是有其心理原因的，同时也是可以给予说明和预测的。
2、反应者过去形成的人格特征，他当时的心理状态以及他对未来的期望会渗透在他对外部刺激的反应过程及结果中。
3、个人的人格会无意识地渗透在对刺激情境的解释性反应中，因此可以通过测验得以解释。
（六）罗夏克墨迹测验的四个阶段P243
1、自由反应阶段
2、提问阶段
3、类比阶段
4、极限测验阶段
（七）罗夏克墨迹测验概况：P243
（八）主题统觉测验简介：P245
第十五章其他心理与教育测验
一、识记
（一）状态焦虑的含义P148
是指由紧张、担忧、神经过敏和忧虑所引起的主观感觉和由主性神经系统的唤醒所引起的生理反应。
（二）物质焦虑的含义P249
是一种比较稳定的人格物质，它存在着个体差异，是一种习得的行为倾向。
二、领会
（一）常用的焦虑测验P249
1、显性焦虑量表（MAS）
2、状态——物质焦虑量表（STAI）
3、测验焦虑量表
4、其他临床焦虑量表
（二）职业兴趣测验P253
1、斯特朗职业兴趣问卷
2、库德职业兴趣调查表
3、自我指导问卷
（三）品德和态度测量的常用方法
1、态度测量方法：P260等距量表法、克利特量表法、哥特曼量表法
2、品德测量方法：P265情境测验法、问卷测量法等

第十六章测量的综合应用
一、应用：
论述心理测量在三个领域中的应用情况及需要补充完善的地方。
（一）心理测量在心理咨询中的应用：P271
1、在自我认识、人生规划咨询中的应用
2、在神经症、人格障碍等咨询中的应用
（二）心理测量在人事测评中的应用P275
1、在人的心理特点评估中的应用
2、人员培训后的心理特点评估
3、工作人员的效绩评估
（三）心理测量在教育评价中的应用P281
1、在测量学生的学习与发展状况中的应用
2、在教师与管理者评价中的应用
第十七章心理与教育测量理论的新发展
本章不作考试要求

附录题型举例
一、填空题
1、按测量方式所作的分类，心理测量可分为个别测量和。
2、首次提出“心理测验”这个术语的人是。
二、单选题
1、在EPQ量表中，反映被试的社会朴实或者幼稚水平的分量表是（）
A 、P量表 B、E量表 C、N量表 D、L量表
2、某一项目上高分组和低分组的通过率分别为0.83和0.43，则该项目的难度是（）
A、0.43 B、0.40 C、0.59 D、0.75
三、名词解释
1、重测信度
2、结构效度
四、简答题
1、简述信度和效度的关系。
2、简述投射测验的基本原理及其特点。
五、计算和分析题
1、某人在一次由80人参加的成就测验中得76分，排名18，则该生成绩（76分）的百分等级是多少？
2、下表为一个由370人参加的测验中的4个题目的项目信息统计结果列表，请您对这4个题目进行项目分析和评价。

F. 什么是心理与教育测量

心理与教育测量大纲/讲义

第一章心理与教育测量概论
本章考核知识点和考核要求
一、识记
（一）测量的定义：P2
测量是依据一定的法则，使用量具对事物的特征进行定量描述的过程。
（二）测量的基本要素：P4
任何测量都必须具备两个基本要素，即测量的参照点和测量的单位。
（三）心理与教育测量的定义：P6—7
依据一定的心理学和教育学理论，使用测验对人的心理特征和教育成就进行定量描述的过程。
二、领会
（一）测量量表的4种类型：P5
命名表、顺序量表、等距量表、比率量表
（二）心理测验的4个基本条件：P9—12
1、行为样本 2、标准化 3、难度或应答率 4、信度和效度
（三）心理测验的5种不用分类：P12—14
1、按测量对象所作的分类：
智力测验、能力倾向测验、成就测验、人格测验
2、按测量方式所作分类：
个别测量、团体测量
3、按测验内容的形式所作的分类：
文字测验、非文字测验
4、按测验功能所作的分类：
成就测验与预测测验、难度测验与速度测验、描述测验与诊断测验
5、按评价所参照的标准分类：
常模参照测验、目标参照测验、潜力参照测验

第二章心理与教育测量的产生与发展
考核知识点与考核要求
一、识记：
（一）高尔顿的主要贡献：P28
1、英国优生学的创始人。出版了《遗传的天才》一书，提出人的能力是由遗传而来的，其差异是可以测量的。
2、1884年，成立“人类测量实验室”，被视为第一个大规模系统测量人的个别差异的尝试。
3、发明了许多测量仪器；是应用评定量表、问卷法、自由联想法的先驱。
4、最重要的贡献之一是把统计方法应用到对个别差异资料的分析之中。
（二）卡特尔的主要贡献：P28
美国心理学家，1890年，首次提出“心理测验”这一术语，他的许多观点都已成为测量学上的重要观点。
（三）比内的主要贡献：P29
法国心理学家，1904年，与其助手西蒙合作完成了世界上第一个智力测验量表——比内—西蒙量表。
二、领会：
西方心理学与教育测量的发展：P30
1、智力测验的发展
2、能力倾向测验的发展
3、成就测验的发展
4、人格测验的发展

第三章经典测验理论的基本假设
考核知识点与考核要求
一、识记
（一）测量误差：P40
指在测量过程中由哪些与测量目的无关的变化因素所产生的一种不确定或不一致的测量效应。
（二）随机误差：P40
由与测量目的无关的、偶然因素引起的又不易控制的误差。
（三）系统误差：P40
是那种由与测量目的无关的变因引起的一种恒定而有规律的效应。
（四）真分数：P42
把反映被试某种心理特质真正水平的那个数值称为该特质的真分数，简称T分数。
（五）平行测验：P43
如果两个题目不同的测验测的是同一特质，并且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布都是一致的，则这两个测验被称作平行测验。
二、领会：
（一）测量误差的三个主要来源：P41
测量工具、被测对象、施测过程
（二）观察分数、真分数和随机误差之间的关系：P42—43
观察分数是指实测的分数，它们的关系是：
观察分数被假定等于真分数与误差分数之和，二者关系被假定为线性关系，随机误差服从均值为零的正态分布，它独立与真分数。

第四章测量信度
考核知识点与考核要求
一、识记
（一）信度的含义及测量学的定义：
1、信度的含义：P45指测量结果的稳定性程度，也测量的可靠性。
2、信度的测量学定义：P46乃是一个X（A卷）与它的任意一个平行测验X/（B卷）的相关系数。即RXX=PXX’
（二）重测信度的含义：P48
指用同一个量表对同一组被测试施测两次所得结果的一致性程度。
（三）复本信度的含义：P49
指两个平行的测验测量同一批被试所得结果的一致性程度。
（四）分半信度的含义：P50
指将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。
（五）同质性信度的含义：P51
指多个评分者给同一批人的答卷进行评分的一致性程度。
二、领会：
（一）信度的作用：P47
1、信度是测量过程中所存在的随机误差大小的反映。
2、信度可以用来解释个人测验分数的意义
3、信度可以帮助进行不同测验分数的比较。
（二）重测信度的使用条件：P48
（三）复本信度的使用条件：P49
（四）分半信度的使用条件：P50—51
（五）同质信度的使用条件：P51
（六）影响信度的因素：P55
被测、主试、施测情境、测量工具、两次施测的间隔时间
（七）提高信度的方法：P56
1、适当增加测验的长度，
2、使测验中所有试题的难度接近正态分布，并控制在中等水平，
3、努力提高测验试题的区分度，
4、选取恰当的被试团体，
5、主试者严格执行实测规程，评分者严格按标准给分，减少无关因素的干扰。
三、应用
（一）能用克龙巴赫系数计算项目的同质性信度
克龙巴赫α系数 P52 公式、例题
（二）能用肯德尔和谐系数计算评分这信度
P53 公式 P54 举例
（三）通过增加题目长度来提高测验的信度。
P56

第五章测量效度
考核知识点与考核要求
一、识记
（一）效度的含义：P59
指一个测验或量表时间能测出其所要测的心理特质的程度。
（二）效度的测量学定义：P60
在一系列测量中，与测量目的有关的真实变异数与总变异数（实得变异数）的比率。即
效度=SV2/RXY2
（三）内容效度的含义：P62
指一个测验时间测到的内容与所要测量的内容之间的吻合程度。
（四）结构效度的含义：P63
是指一个测验实际测到所要测量的理论结构和特质的程度。
（五）实证效度的含义：P66
指一个测验对处于特定情境中的个体的行为进行估计的有效性。
（六）效标的含义：P67
就是衡量一个测验是否有效的外在标准。
二、领会
（一）效度的特点：P59
1、效度是一个相对的概念
2、效度是测量的随机误差和系统误差的综合反映
3、判断一个测量是否有效要多个方面搜集证据。
（二）效度与信度的关系：P61
1、信度是效度高的必要而非充分的条件
2、测验的效度受它的信度制约
（三）三种效度的适用范围：
1、内容效度的适用范围P62
成就测验、职业测验
2、结构效度的适用范围P63
智力测验、人格测验等
3、实证效度的适用范围P67
诊断现状、预测个体将来的行为
（四）影响效度的因素P69
测验的构成、实施的过程、被试、所选效标的性质、测量信度
（五）提高效度的方法P70
1、精心编制测验量表，避免出现较大的系统误差
2、妥善组织测验，控制随机误差
3、创设标准的应试情境，让每个被试都能发挥正常的水平
三、应用
三种效度的估计方法
（一）内容效度的确定方法P63
主要是逻辑分析法
（二）结构效度的确定方法P64
1、测验内部寻找证据法
2、测验之间寻找证据法
3、考察测验的实证效度法
4、多种特质——多种方法矩阵法
（三）实证效度的确定方法P68
1、相关法 2、区分法 3、命中率

第六章测验的项目分析
考核知识点与考核要求
一、识记
（一）项目难度的含义：P72
是指测验项目的难易程度。
（二）区分度的含义：P77
是指测验项目对被试心理品质水平差异的区分能力。
二、领会：
（一）难度对测验分数的影响：P76
1、测验难度影响测验分数的分布形态
2、测验难度影响测验分数的离散程度
（二）项目鉴别指数评价题目性能的标准P79 表6—1
（三）区分度的相对性：P85
1、不同的计算方法，所得区分值不同。
2、样本容量大小影响相关法区分值的大小
3、分组标准影响鉴别指数值D
4、被试样本的同质性程度影响区分度值的大小
（四）区分度和难度的关系：P84
1、难度越接近0.50，项目潜在的区分越大
2、难度越接近1.00或0时，项目的潜在区分度越小
三、应用
（一）计算不同形式题目（是非题、选择题、论述题）的难度。P72—74
1、二分法记分形式项目的难度计算P72—73
公式、例题
2、非二分法记分项目的难度计算P73—74
公式、例题
（二）用鉴别指数法计算测验题的区分度P78
鉴别指数的计算P78
公式、例题
（三）根据难度和区分度进行多重选择题的项目分析：P91 表

第七章测验常模
考核知识点与考核要求
一、识记
（一）原始分数和导出分数的含义 P93
1、被试在接受测验后，根据测验的记分标准，对照被试的反应所计算出的测验分数称作原始分数。
2、在原始分数转换的基础上，按照一定的规则，经过统计处理后获得的具有一定参考点和单位，且可以相互比较的分数。
（二）百分等级的含义P94
是应用最广的导出分数，是指在一个群体的测验分数中，得分低于这个分数的人数的百分比。就是说，如果将某一被试群体分为一百个等级，则每位被试所占的等级数就是百分等级。
（三）标准分数的含义和种类：P96
1、含义：又称公分数，是将原始分数与团体的平均数之差除以标准差所得的商数。公式。
2、种类：P97-100。T分数、其他形式、标准九分数。
（四）常模团体的含义：P106
是由具有某种共同特征的人所组成的一个群体，或是该群体的一个样本。
二、领会
（一）标准分数的优缺点
优点：P96，它是一个抽象值，不受原始测量单位的影响，并可接受进一步的统计处理。
缺点：公分数由于计算中经常出现负数和小数，且单位过大，因此使用起来不够方便。P97
（二）确定常模团体的注意事项P106-107：共六点
（三）制定常模的过程P108
1、确定测验将用于哪一个群体。
2、对常模团体进行施测，获得团体成员的测验分数和分数分布。
3、确定常模分数类型，制作常模量表，给出书面说明等。
（四）几种主要的常模参照分数P108-110
1、发展量表P108
2、商数P110分式
三、应用
（一）比较几种导出分数的优缺点P94
1、百分等级分数的优缺点P95
2、标准分数的优缺点P96-97
3、T分数的优缺点P98下
（二）计算未分组资料的百分等级
P94 公式、例题

第八章心理与教育测验的编制与实施
一、领会
（一）心理测验编制的一般程序P117
1、确定测验目的
2、制定编题计划
3、编辑测验项目
4、预测与项目分析
5、合成测验
6、测验标准化
7、鉴定测验
8、编写测验说明书。
（二）编辑测验项目的注意事项P120
共六点
（三）测验标准化应注意的问题：P122
1、测验内容
2、施测过程
3、测验评分
4、测验分数的解释
（四）测验实施过程中应注意的问题：P125
1、施测前的准备工作
2、指导语
3、测验情境
4、测验焦虑
5、与受测者建立良好的协调关系
（五）测验焦虑的相关内容P126
二、应用
（一）项目编排和制作复本的方法
1、项目编排的方法：P121
并列直进式、混合螺旋式
2、制造复本的方法P122
（1）先将所有可用的项目按难度排列，其次序为1、2、3、4、5、6、……
（2）分成两个等值的测验本方法
（3）分成3个等值的没测验本方法
（二）解释测验分数意义时遵循的基本原则P129：共六点
（三）向受测者报告测验分数时的注意事项P131-132共九点
第九章测验等值
一、识记：
（一）测验等值的含义P135
就是通过对考核同一种心理品质的多个测验形式作出测量分数系统的转换，进而使得这些不同测验形式的测验分数之间具有可比性。这样一套专门技术称为～
（二）锚测验的含义：P138
在测验等值设计中，有时会采用一组测验试题来关联两个待等值的测验形式，以便寻找两形式的等值关系，这些测验试题被称为锚测验。
（二）领会
（一）测验等值的条件P136
1、同质性2、等信度3、公平性4、可递推性5、对称性6、样本不变性。
（二）测验等值结果的表示方法：P140
1、表列法2、公式法3、图示法
三、应用
（一）等百分位等值的计算：P142例题
（二）线性等值的计算P143、公式P144例题
第十章目标参照测验
一、识记
（一）目标参照测验的含义：P154
当一个测验是以某一明确界定的内容范围为基础编制而成，并且其分数是参照该内容范围所要求的绝对标准进行解释，我们便称这一测验为～
（二）分类一致性信度的含义：P161
对测验的分类一致性的度量指标，称作～
二、领会
（一）双向细目表的构成要素：P154-155
1、教学目标
2、教学内容
3、在整个内容范围中每一类内容和每一种目标结合后，所占的比重（相对重要性）
（二）测验项目区分度的两类指标P159
1、难度差值
2、相关系数
（三）目标参照测验的效度及其估计P163
1、内容效度及评估重要条件
2、效标关联效度的估计——决策效度。
（四）目标参照测验分数分界点确定的几种方法P165
1、专家判是法2、效标组预测法
三、应用
（一）根据测验项目的内容效度分析来决定项目的取舍P155-158
关键词：专家评定法、项目内容评定表、等级评定均值和中位数分析。
（二）测验项目难度差值的计算分析P158
1、难度分析P158下
2、计算——与常模参照测验相同，以通过率表示。P159，难度差值。
（三）比较目标参照测验和常模参照测验的异同。
1、P152-P153 上，两者差异
2、相同点：P168

第十一章学绩测验
一、识记
（一）学绩测验的含义P170
是对个体在某一阶段的学习或训练之后知识、技能的发展水平的测定。
（二）标准化学绩测验的含义P173
在心理与教育测量学原理指导下，遵循一定的程序所编制的各方面质量都达到规定标准的学绩测验，称为～
（三）斯坦福成就测验P177
属于综合性学绩考查测验，也是一种供团体使用的常模参照性测验，历史比较长。
二、领会
（一）学绩测验的分类P172
1、按测验的编制方法分
2、按测验的内容分
3、按测验用途分
4、按测验评分的参照系分
5、按测验的题型分
（二）标准化学绩测验的基本条件P174
1、命题组卷标准化
2、施测标准化
3、评分标准化
4、测验分数解释标准化
（三）标准化学绩测验的编制过程P175-177。共五点
（四）教师自编课堂测验的特点P182
1、测验形式灵活多样，与测验目的完全一致
2、测验内容与教材内容高度一致
3、测验难度切合学生实际水平
4、测验编制简易快速。
第十二章能力测验（上）
一、识记
（一）几种智力理论的名称、主要代表人物和观点
1、智力的心理测量学理论P188
① 主要代表人物
② 主要观点
2、智力的生物学理论P189
① 主要人物质
② 主要观点
3、智力的认知心理学理论P190
（二）三种常用的团体智力测验名称P206
1、陆军测验
2、瑞文推理测验
3、认知能力测验
二、领会
（一）比内量表的发展阶段P198-199
1、比内——西蒙量表的发展阶段
2、斯坦福——比内量表的发展阶段
（二）韦氏成人智力量表修订本的构成P201
1、1981年修订版P201
2、中国修订本P202-203
（三）斯比量表和韦氏量表的信度估计
1、斯比量表的信效度估计P199
2、韦氏量表的信效度估计P202
（四）瑞文推理测验的三种水平及其优点P206
1、三种水平：标准推理测验，采图推理测验，高级推理测验
2、优点：P207
三、应用
评价传统智力测验存在的若干问题P192-195
共四大点

第十三章能力测验（下）
一、领会
（一）能力倾向测验的特点：P211
1、测验的目的
2、测验的编制
3、测验结果的解释
（二）创造力测验的理论基础P222
吉尔福特发散思维的研究

第十四章人格测量
一、识记
（一）人格测量发展过程中出现几个重要人物P228
1、英国学者高尔顿1884年首倡用科学方法测量人格
2、1892年，克雷培林将联想测验用于临床诊断
3、1919年美国戴德沃斯发表第一个自陈人格量表
4、1920年，罗夏克墨迹测验问世，投射测验由此产生
（二）自陈量表的含义：P230
就是根据要测量的人格特质，编制许多有关的问题，要求受测者根据自己的实际情况逐一回答这些问题，然后根据受测者的答案，去衡量受测者杂一这种人格特质上的表现程度。为完成自陈人格测量而编制的测量工具叫自陈量表。
（三）投射测验的含义：P241
指向受测者提供预先编制的一些未经组织的、意义模糊的标准化刺激情境，让受测者在不受任何限制的情况下，自由地对刺激情境作出他的反应，然后通过分析受测者的反应，推断受测者的人格特质。
三、领会
（一）自陈量表的编制方法和特点：P230
1、编制方法：是否式、二择一式、是否折中式、文字等级式、数字等级式
2、特点：
①题量较大，多数用于测量人格的若干特质
②通常采用纸笔测验
③记分规则简单客观，施测手续简便，测量分数容易获得解释
（二）明尼苏达人格问卷概况P233
（三）卡特尔16种人格问卷概况P235
（四）艾森克人格问卷简介P236
（五）投射测验的理论假设P242
1、人们对外部事物的解释性反应都是有其心理原因的，同时也是可以给予说明和预测的。
2、反应者过去形成的人格特征，他当时的心理状态以及他对未来的期望会渗透在他对外部刺激的反应过程及结果中。
3、个人的人格会无意识地渗透在对刺激情境的解释性反应中，因此可以通过测验得以解释。
（六）罗夏克墨迹测验的四个阶段P243
1、自由反应阶段
2、提问阶段
3、类比阶段
4、极限测验阶段
（七）罗夏克墨迹测验概况：P243
（八）主题统觉测验简介：P245
第十五章其他心理与教育测验
一、识记
（一）状态焦虑的含义P148
是指由紧张、担忧、神经过敏和忧虑所引起的主观感觉和由主性神经系统的唤醒所引起的生理反应。
（二）物质焦虑的含义P249
是一种比较稳定的人格物质，它存在着个体差异，是一种习得的行为倾向。
二、领会
（一）常用的焦虑测验P249
1、显性焦虑量表（MAS）
2、状态——物质焦虑量表（STAI）
3、测验焦虑量表
4、其他临床焦虑量表
（二）职业兴趣测验P253
1、斯特朗职业兴趣问卷
2、库德职业兴趣调查表
3、自我指导问卷
（三）品德和态度测量的常用方法
1、态度测量方法：P260等距量表法、克利特量表法、哥特曼量表法
2、品德测量方法：P265情境测验法、问卷测量法等

第十六章测量的综合应用
一、应用：
论述心理测量在三个领域中的应用情况及需要补充完善的地方。
（一）心理测量在心理咨询中的应用：P271
1、在自我认识、人生规划咨询中的应用
2、在神经症、人格障碍等咨询中的应用
（二）心理测量在人事测评中的应用P275
1、在人的心理特点评估中的应用
2、人员培训后的心理特点评估
3、工作人员的效绩评估
（三）心理测量在教育评价中的应用P281
1、在测量学生的学习与发展状况中的应用
2、在教师与管理者评价中的应用
第十七章心理与教育测量理论的新发展
本章不作考试要求

附录题型举例
一、填空题
1、按测量方式所作的分类，心理测量可分为个别测量和。
2、首次提出“心理测验”这个术语的人是。
二、单选题
1、在EPQ量表中，反映被试的社会朴实或者幼稚水平的分量表是（）
A 、P量表 B、E量表 C、N量表 D、L量表
2、某一项目上高分组和低分组的通过率分别为0.83和0.43，则该项目的难度是（）
A、0.43 B、0.40 C、0.59 D、0.75
三、名词解释
1、重测信度
2、结构效度
四、简答题
1、简述信度和效度的关系。
2、简述投射测验的基本原理及其特点。
五、计算和分析题
1、某人在一次由80人参加的成就测验中得76分，排名18，则该生成绩（76分）的百分等级是多少？
2、下表为一个由370人参加的测验中的4个题目的项目信息统计结果列表，请您对这4个题目进行项目分析和评价。

题
号组别选答人数正确
答案难度P 区分度
A B C D 未答 Rpb D
1 高分组 5 92 1 2 0 B
0.71 0.52 0.42
低分组 22 50 12 16 0
2 高分组 58 10 15 16 1 A 0.42 0.33 0.32
低分组 26 21 15 36 2
3 高分组 17 25 28 28 12 D
0.31 －0.04 －0.06
低分组 25 11 19 34 11
4 高分组 1 44 14 36 5 C 0.12 0.08 0.04
低分组 1 56 10 28 5

七、论述题
联系实际谈谈心理测验在实际工作中有哪些具体应用？

G. 经典测量理论的详细内容

真分数理论是最早实现数学形式化的测量理论。它从十九世纪末开始兴起，二十世纪30年代形成比较完整的体系而渐趋成熟。50年代格里克森的着作使其具有完备的数学理论形式，而1968年洛德和诺维克的《心理测验分数的统计理论》一书，将经典真分数理论发展至颠峰状态，并实现了向现代测量理论的转换。
所谓真分数是指被测者在所测特质（如能力、知识、个性等）上的真实值，即(True Score)真分数。而我们通过一定测量工具（如测验量表和测量仪器）进行测量，在测量工具上直接获得的值（读数），叫观测值或观察分数。由于有测量误差存在，所以，观察值并不等于所测特质的真实值，换句话说，观察分数中包含有真分数和误差分数。而要获得对真实分数的值，就必须将测量的误差从观察分数中分离出来。为了解决这一问题，真分数理论提出了三个假设：其一，真分数具有不变性。这一假设其实质是指真分数所指代的被测者的某种特质，必须具有某种程度的稳定性，至少在所讨论的问题范围内，或者说在一个特定的时间内，个体具有的特质为一个常数，保持恒定。其二，误差是完全随机的。这一假设有三个方面的含义。一是测量误差的平均数为零的正态随机变量。在多次测量中，误差有正有负。如果测量误差为正值，观测分数就会高于其实际的分数（真分数）；如果测量误差为负值，则观测分数就会低于其实际的分数，即观察分数会出现上下波动的现象。但是，只要重复测量次数足够多，这种正负偏差会两相抵消，测量误差的平均数恰好为零。用数学式表达为：E(E)=0。二是测量误差分数与所测的特质即真分数之间相互独立。不仅如此，测量误差之间，测量误差与所测特质外其它变量间，也相互独立的。其三，观测分数是真分数与误差分数的和。即X=T+E。
在上述三个基本假设的基础上，真分数理论作出了如下两个重要推论：第一，真分数等于实得分数的平均数（T=E(X)）；第二，在一组测量分数中，实得分数的变异数（方差）等于真分数的变异数（方差）与误差分数的变异数（方差）之和。即（S2X= S2T + S2E）。经典测量理论在真分数理论假设的基石上构建起了它的理论大厦，主要包括信度、效度、项目分析、常模、标准化等基本概念。
（1）信度(Reliability)。信度是测量理论中最重要的核心概念，指测量果的一致性程度，亦称可靠性程度。在经典测量理论中信度被定义为：一组测量分数的真分数的方差（变异数）在总方差（总变异数）中所占的比率。
由于真分数的方差和误差分数的方差是无法获得的，因此这个信度概念还只是一个理想的构想的概念，不能直接计算。为了解决这一问题，CTT提出了平行测验(Parallel Test)的概念。
所谓平行测验是指能够对同一被试的同一特质作相同准确测量的不同测验形式(测验题目)。如果某一测验有许多平行式，则某被试可以在每一形式上获一个观测分数，这样就产生了一个观测分数的分布，这一分布的平均值就称作该被试的真分数。实际上，平行测验是一个构想的概念，要在实际的测验的编制中实现是非常困难甚至是不可能的，最多也只能说是比较接近。
在平行测验假设的基础上，CTT提出了估计测验信度的一系列方法，如采用相关法进行重测信度(Test-retest Reliability)、复本信度(Equivalent-forms Reliability)、分半信度(Split-half Reliability)的估计，提出同质性的概念以保证反应的一致性，如克伦巴赫(Cronbachα)系数、库德和理查逊(G.F.Kuder & M.W.Richardson，1937)提出的估计一致性的两个公式K－R20公式和K－R21公式、荷伊特信度(Hoyt，1941)等都是进行同质性估计的重要方法。
(2)效度(Validity)
测量的效度是指测量结果的有效性程度，也就是已测到的质和量与主试者欲测的质和量相符合的程度，有的也称效度为正确性。效度是任何一种测评必须解决的首要问题，因为有效性决定了一种对测量效度的考查是一个很复杂的问题，特别是对人的潜在特质的测量，因为潜在特质并不是一个看得见摸得着的物质实体，而是一种观念构想。对潜在特质的测量只能采用间接的方法，其测量模型可表示用行为主义的公式S－R表示，在测量过程中我们所能控制的是呈现给被试的刺激S，所能观测到的是被试在一定测量情景下对刺激S的反应R。而潜在特质是介于S和R之间的，在这一中间过程对S传入大脑的信息作出了处理，处理后的信息以R方式输出。简单地说，效度要弄清楚的是在S信号传入大脑后，哪种（哪些或最主要是哪一种）特质参与了对输入信号的处理。
CTT对效度问题提出了诸多解决方案，因而有很多效度名称。如，同时效度，预测效度，表面效度，相容效度，协同效度，假设效度，效标关联效度，实证效度，经验效度等等。为了规范效度问题的研究与解释，美国心理学会在1974年将测量的效度分为三大类，即，内容效度(Content Validity)，是指测验的内容对欲测范围内内容的代表性程度；结构效度(Construct Validity)，测量结果与测验的理论假设之间的一致性程度；效标关联效度(Criterion-related Validity)，又称实证效度，指测量的结果与某种外在效标之间的一致性程度，一般用测验分数与效标之间的相关系数表示。
成就测验或学科测验（以检测知识为主的考试）较容易获得较高的内容效度，而对这类测验也往往注重考察它们的内容效度。对于能力测验、个性测验、态度测验、品德测评等，其内容效度的考察往往比较困难，而采用效标关联效度较多。效度的检验不是一次就能完成的，往往要通过累积证据的方法不断积累效度资料来证实它的有效性，结构效度在根据某一理论结构模型（智力、个性等）编制测验时特别注重，它也是通过累积证据的方法来效度获得支持的。
(3)项目分析(Item Analysis)
为了提高测验的信度和效度，CTT理论特别注重测验项目的质量，除了深入研究试题的类型和功能及编制技巧外，还发明一系列筛选、甄别项目的方法，统称为项目分析，其中最主要的是难度分析和区分度分析。项目难度的主要指标是通过率，即在该题上答对的人数与全体被试的比率（或平均得分与该题满分的比率）。仅难度还不足以说明题目质量的优劣，CTT还提出以题目对被试水平区分鉴别能力作为评价试题质量的区分度概念。
(4)常模(Norm)
CTT理论认为，仅从测验试卷上的得分不能获得被试个体确切地位的信息。为了对测验的分数进行合理的解释，提出常模的概念。所谓常模即是从某一总体中抽取的被试样本在该测验上得分的分布，以常模团体的平均数（或中位数）为参照点，将个体的分数标定在高或低于参照点的某一位置以确定该被试在团体中的相对地位。这种标定可以通过原始分数(Raw Score)转换成量表分(Scale Score)，或称导出分数。CTT将这种类型的测验称为常模参照测验(Norm-referenced Test)，与此相对应的称为标准参照测验(Criterion-referenced Test)，其测验分数的解释与转换方法有所不同。
(5)标准化(Standardization)
所谓标准化是指对测验实施程序、对象范围、施测环境、测试方式、测验时限、分数解释（常模）作了统一的规定，使测验能够在异时、异地，不同的主试等条件下进行，并能得到同等有效的测验结果。标准化的思想主要来自于自然科学中对实验条件进行严格控制以降低测量误差，其方法主要源自实验心理学中对无关变量和干扰变量控制的方法。
2 概化理论
凡测量都有误差，误差可能来自测量工具的不标准或不适合所测量的对象，也可能来自工具的使用者没有掌握要领，也可能是测量条件和环境所造成，也可能是测量对象不合作所引起。总之产生测量误差的原因是多种多样的，而CTT理论仅以一个E就概括了所有的误差，并不能指明哪种误差或在总误差中各种误差的相对大小如何。这样对于测量工具和程序的改革没有明确的指导意义，只能根据主试自己的理解去控制一些因素，针对性并不强。鉴于此种情况，二十世纪六十至七十年代初，克伦巴赫(Cronbach)等人提出了概化理论(Generalizability Theory)简称GT理论。
GT理论的基本思想是，任何测量都处在一定的情境关系之中，应该从测量的情境关系中具体地考察测量工作，提出了多种真分数与多种不同的信度系数的观念，并设计了一套方法去系统辩明与实验性研究多种误差方差的来源。并用“全域分数”(Universe Score)代替“真分数”(True Score)，用“概括化系数，G系数”(Generalizability Coefficent)代替了“信度”(Reliabilty)。
概化理论认为，测量的总方差可以分解为代表目标测量的方差成分和构成误差的种种方差成分。测量工作中要加以认识和予应用的心理特质水平是测量目标。而构成测量条件与具体情境关系的因素，称为测量侧面(Facets of Measurement)。如学生阅读能力测验，其目的是对学生阅读能力的测量，因此，阅读能力就成为测量目标，除此外试题的水平和评分者等因素也会影响测验的总变异。这两个因素就是测量侧面。这里对学生阅读能力的测量是在双侧面情境的条件下进行的。测量侧面中的单个事例叫侧面的水平，如有两个评分者甲和乙，则评分者这一侧面就有两个水平。测量侧面又分为随机侧面和固定侧面。随机侧面是指测量侧面中所包含的各水平中是类似水平的随机样本，而非固定不变的侧面，如大规模考试中评分者每次都有可能不同，由这样变化的评分者所组成的测量侧面就称为随机侧面。固定侧面是指在各次实施中测量侧面的所在水平一直保持不变的测量侧面，如标准化的心理测验中测验的项目总是一样，这样的侧面就叫固定侧面。因此，进行测验的标准化就是对某些测量侧面进行固定。固定测量侧面可以减少测量误差，但却会使测量目标变得更为局限。比如，把阅读理解题定为对科技说明文，这时，所测的特质就不再是一般的阅读理解能力，而是特定的对科技说明文的理解能力了。这样，测验所得的分数就不能再推广到原来那么宽广的范围了。
概化理论强调，测量目标是具体的，并不是绝对固定不变的。因而全域分数也就不固定，可以有多种。一方面，当固定侧面时，侧面本身会转化为测量目标的一部分（如对一般阅读理解能力的测量转变为对科技说明文的测量），测量目标要局限化；另一方面，当测量中考察目的与应用需要改变时，测量目标对象就可能完全转移。比如，当作文考试结果是要对考生作判断时，测量目标就是考生的作文能力，若要把评分严与评分宽的评分者区分开，评分者的能力就成了测量目标，也即测量目标就完全发生了转移。显然，测量目标不同时，标志测量目标的分数也就不同。测量目标在具体关系条件下的分数叫全域分数。这样，有时对同一批测量资料来说，当测量工作的具体关系变化时全域分数也会变。即同一测验资料就可能有多种全域分数。
概化理论把全域分数方差对总变差的比称为为概括力系数（简称G系数）。而总方差可以分成全域分数方差(δ2 (p)和误差分数方差(δ2(δ))，如果测验是常模参照性测验，则G系数E2ρ是评价测验稳定性程度的最佳指标:
即: E2ρ=(δ2(p))/[ δ2(p) +(δ2(δ))]
若该测验是标准参照性测验，则其依存性j指标是测验稳定一致性的最好指标。
j=(δ2(p))/[ δ2(p) +(δ2(△))]
上两式中，误差方差δ2(δ)可能是很多项的和，如上例中考生的阅读理解能力的方差是标志测量目标的方差，即为全域分数方差记为(δ2(p))，而试题、评分者及三个主效应间的交互作用方差（共有7种方差成分）都不应包括在全域分数方差之中，作为误差方差(δ2(δ))的一部分，是构成总方差的成分之一。由此可见，当全域分数方差不变，而误差分数方差增大时，概括力系数值降低，信度降低。反之，当全域分数方差增大，而误差分数方差不变，则概括力系数增大，信度提高。所以，随着测量情境关系的变化，测量目标与侧面的变动，概括力系数即信度也就会不同。同一批资料就可能有多种不同含义与取值的概括力系数。一般说来，增大概括力系数的方法有两种：第一种是，固定测量侧面（如固定试题）。第二种是增加侧面所包含的水平数（如增加试题或评分者数目）。(漆书青,1993)
概化理论是用方差分析的方法来全面估计出各种方差成分的相对大小，并可直接比较其大小。虽然真分数理论也可以分别地估出某一方差成分的大小，如代表试题侧面的内部一致性系数，代表评分者侧面的评分者信度等，正因为是单独估出的，这些值之间不能直接比较，也只有对主效应作估计，而不能对交互作用进行估计。而概化理论却能做到这一点。它既能估计出主效应，也能估计出交互作用效应，并能对各估计值的大小进行直接比较。在概化理论中，理论估出各方差成分相对大小的过程，叫概化理论的概括分研究阶段或称G－研究阶段。
概化理论并不内静止地分析各种误差来源，还要在G－研究的基础上，通过实验性研究，进一步考察不同测验设计条件下的概括力系数的变化状况，如固定侧面或增加侧面水平下的变化状况，从而探求到最佳的控制误差的方法，作出最佳的设计决策，从而改进测验的内容、方式方法提供了有价值的信息。这一阶段称作决策研究或称D－研究阶段。
GT在研究测量误差方面有更大的优越性，它能针对不同测量情境估计测量误差的多种来源，为改善测验，提高测量质量有用的信息。其缺陷是统计计算相当繁杂，如果借助一些统计分析软件可以解决这一问题。GT理论目前在我国还处于实验研究阶段，在面试、考核等主观性测评中有一些应用(刘远我,张厚粲,1998)
3 项目反应理论
任何一种理论都不可能是完美无缺的，作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。项目反应理论（Item Response Theory, IRT）则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。
无论是CTT还是GT，其测验内容的选择、项目参数的获得和常模的制定，都是通过抽取一定的样本（行为样本或被试样本），因此可以说二者都建立在随机抽样理论基础之上。它们的局限性主要表现在以下四个方面：
（1）测量结果的应用范围有限。一般来说，对测量误差的控制有三种方法：配对或标准化、随机化、统计调整。配对或标准化技术的应用使得误差变量的影响不能解释测量结果的差异，随机化技术的应用可使误差变量的影响不能在测量结果上形成系统误差。统计调整技术建立在数学模型基础上，将误差变量的影响参数化，从而在测量中调整参数估计值，减少误差变量的影响。经典测验理论主要应用的是配对或标准化技术和随机化技术。然而，使用配对或标准技术的测量结果仅仅能在相同的测量条件下成立，却不能将其拓展到非标准化的环境之中去，使得测量的应用受到很大的限制。
（2）测量分数赖性于具体的测验（内容）。经典测量理论控制误差应用标准化技术，但其标准化的对象是测验的各种外部变量，对测验的内部变量即测验的项目的“性质”这一变量却没有也不可能实现标准化。这就造成了测验分数对具体测验的依赖性，迫使经典测验理论要么使用统一的试卷，要么使用实际上并不平行的所谓“平行试卷”。这种处理方法，即给实际操作带来困难，也给结果的解释带来较大的误差。
（3）测量参数依赖于被试样本。经典测量理论构造了一个完整的理论体系，同时设计了一套参数指标来刻划测量各方面的特性。如测验的信度、效度、项目的难度、区分度等。但是这些参数的估计对样本的依赖性是很大的。测验的信度和效度采用相关分析法，同样受到样本的影响。为避免抽样误差对参数估计的影响，经典测量理论特别强调样本对总体的代表性。但经典理论所应用的是随机抽样，随机抽样总是偏差存在。何况在实际工作中，由于客观条件的限制，还不能做到随机抽样。因此，参数估计值对样本的依赖性使得所估参数对测验的分析的价值是有限的。
（4）信度估计的精确性不高。测量的重要目标就是降低测量误差，提高测量的精度。在经典测量理论中，信度被定义为真分数的变异在总变异（观测分数）中所占的比率。然而，真分数的方差是无法求取的，误差的方差也无法计算。为了估计信度，CTT就提出了平行测验的概念，并在此基础上推演出了若干个信度估计公式。但是严格的平行测验是不存在的，等价测验也很难获得的，在此基础上估计的测验信度很难达到比较高的精确程度。另外，经典测量理论中的信度估计值也是一个笼统值，即假定对不同能力水平的被试来说，测量的误差是相同的。而事实是，一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。当测验施测于能力水平高于（或低于）测验难度的被试时就容易产生较大的测量误差。而且测量误差值会随着被试水平与测验难度距离的增加而变大。
项目反应理论研究是以潜在特质为假设并从项目特征曲线开始。所谓项目特质曲线就是用能稳定反映被试水平的特质量表分代替被试卷面总分作为回归曲线的自变量，并把求得的被试在试题上正确作答概率对特质分数的回归曲线称为项目特质曲线（Item Characteristic Curve,简称ICC）。项目反应理论研究中的一项重要工作就是要确定项目特征曲线的形态，然后写出这条特征曲线的解析式，即项目反应函数，也称为项目特征函数（Item Characteristic Function,简称ICF）。
第一个项目反应理论模型是由洛德于1952年提出的双参数正态肩形曲线模型。其项目特征曲线的形状和函数如下。
θ表示被试特质水平的参数；Pi(θ)表示特质水平为θ的被试在项目I上正确回称的概率。从理论上讲，θ的取值在-∞和+∞之间，当θ=-∞时Pi(θ)为0，当θ=+∞时Pi(θ)为1；bi为项目难度参数，它与特质θ定义在同一个量表上。取θ=bi代入上式，得Pi(θ)=0.5，可见b点是肩形曲线的对称中心，也是曲线的拐点；ai称为项目的区分度参数。从图中可以看出，ai是曲线在拐点bi处的切线斜率的函数，即
自洛德提出第一个IRT模型后，许多学者投入到此领域的研究中，提出了很多种模型，目前应用最多是伯恩鲍姆（Brinbaum）提出的逻辑斯蒂克模型(Logistic
Model)和拉希模型（Rasch Model）。逻辑斯蒂克模型如下：
上式是三参数模型，除了试题的难度参数bi和区分度ai以外，他还增加了一个猜测参数ci, ci通常定义为被试中能力水平远低于项目难度2/ai个单位的人在该项目实际猜测作答获得成功的概率。当令ci=0，则上述天参数模型就变成了双参数模型，如ci=0且ai=1，则变成了单参数模型，逻辑斯蒂克的单数模型与丹麦学者拉希(Rasch)提出的单参数模型是相同的。拉希模型是在实践中最常用的模型之一,其模型如下：
与CTT理论和GT理论相比，IRT具有以下优点：
第一，项目反应理论深入测验的微观领域，将被试特质水平与被试在项目上的行为关联起来并且将其参数化，模型化，是通过统计调整控制误差的最好方法。若模型成立并且项目参数均已知，则模型在测验中为项目性质调整数据，可生成独立于测验项目性质的特质水平测量，这是项目反应理论建立项目反应模型的最大优点。也就是通常所说的被试能力估计不依赖于测验项目的特殊选择。
第二，IRT模型项目参数的估计独立于被试样本。项目特征曲线是被试作答正确的概率对其潜在特质水平的回归。而回归曲线并不依赖于回归变量本身的次数分布。对于项目反应函数来说，已知特质水平面为θ0的被试在项目i上正确作答的概率仅仅依赖于其值θ0，并不依赖于具有θ0水平的人数有多少，也不依赖于其它θ取值上的人次数。所以，在求取项目特征曲线的各种参数时，由于回归线的形状、位置都不依赖于被试的分布，所以它的参数，包括难度、区分度和猜测参数也都是不变的。
IRT的第三个优点是能力参数与项目难度参数的配套性，亦即项目难度参数与能力参数是定义在同一个量表上的。这样，对一个能力参数已知的被试，配给一个项目参数已知的试题，我们可以立刻通过模型预测被试正确作答的概率。如果估出被试的能力，我们可以在题库中选出难度与其能力相当的项目进行新一轮的测试，使得能力估计更为精确。这一特点为自适应测评奠定了基础。
第四个优良性质是通过模型测得的被试能力水平，可以精确估计其测量误差。这一优良特性得益于伯恩鲍姆的工作。他把费啸的描写测验信息结构的测度引进了项目反应模型。他提出在项目反应模型下，能力参数未定的被试在n个测验项目上的信息测度可由下式给出。其中Ii(θ)是项目i上的信息，Pi’(θ)是Pi(θ)的导数。
利用IRT这些优良性质，可以开发优质题库，可以按测量精度目标编制各种测验试卷，可能实施测验等值，可以侦察测验项目功能偏差，可以实现计算机化的自适应测验(CAT)。
项目反应理论的发展除了自身的基本理论系统，模型种类，数据模型拟合检验方法和参数估计方法的发展之外，在实际应用方面也有很大成就，主要表现在三个方面：一是指导测验编制。伯恩鲍姆和费啸的测验信息结构的测度引入测验，导致通过建立测验信息目标函数来影响测验的结果，从根本上改善了测验编制的指导思想。在此基础上发展起了多种测验编制指导方法，特别是对目标参照性测验编制的指导，一改经典测验理论软弱无力的指导状况。二是计算化自适应测验的兴起，其三是项目反应理论认知测量模型的出现，将测量导向与认知心理学相结合的方向，应用测量模型直接探索人的认知结构。
IRT的优良特性确实是测评希望达到的理想状态，但也存在着一定的局限性，首先它假定所测的特质是单维的，这只是一种理想状态，在现实中很难满足这一假设。其次，现有的IRT模型主要是针对的是二级评分试题（即只有正确与错误两种答案的试题），而对多级评分的试题模型，虽说有一些探索，但还不是太成熟。第三，IRT的参数估计不依赖于特定的样本，但是要使参数的估计具有稳定性，需要大样本才可以，而在现实的测评中要对大量的试题进行大样本测试以获取稳定的参数估计值，其人才和物力的投入都是相当可观的。上述问题都制约了IRT理论在实践中应用的推进程度。但必须提出的是，IRT代表了现代测量理论的发展方向，随着统计理论成熟和计算机技术的普及和测评需求的发展，IRT理论将逐步扩大其的现代人才测评中的应用范围。
上述三种测量理论构成了现代人才测评的理论基石。三种理论各有长短，经典理论容易理解、操作简单，体系完整，在现实中更易于被接受，因为适应面很广。GT理论主要解决测量误差的问题，对于分析测量的信度有一定优势。IRT理论数理逻辑严密，测量精度高，但对使用者的素质和客观条件都有很高的要求，故应用的范围受到限制。在人才测评实践中，要根据具体的测评对象、目的和具备的条件选择恰当的理论来指导测评工作。当然如果能将几种测量理论的优势结合起来则会获得更好的测评结果。

H. 心理与教育测量的目录

前言
第一章经典测量理论概述
第一节测量误差与真分数
第二节经典的信度理论
第三节误差的来源
第二章信度分析
第一节信度的概述
第二节重测信度系数和复本信度系数的估计
第三节同质信度系数和评分者信度系数的估计
第四节影响信度的因素
第三章效度分析
第一节效标关联效度的分析
第二节内容效度的分析
第三节构想效度的分析
第四节各种效度的关系及影响效度的因素
第四章概化理论
第一节概化理论概述
第二节单侧面设计
第三节随机双侧面设计研究
第五章项目反应理论概述
第一节项目反应理论产生的原因和发展史
第二节项目反应理论的基本原理
第三节项目反应理论的数学模型
第四节信息函数
第六章参数估计
第一节项目参数已知的能力参数估计
第二节能力参数已知条件下项目参数估计
第三节项目与能力参数的联合极大似然估计
第七章项目反应理论的新进展
第一节多值评分项目的单维模型
第二节多维模型
第三节其他模型
第八章项目反应理论的应用
第一节项目反应理论指导下的题库建设
第二节计算机自适应测验
第九章心理测验的编制
第一节心理测验编制的一般程序
第二节心理测验的编制实例
第三节学绩测验的编制
第十章测验等值
第一节测验等值概述
第二节随机等组设计的测验等值方法
第三节铆测验等值方法
第四节项目反应理论等值
第十一章项目功能差异
第一节项目功能差异简介
第二节项目功能差异的侦查方法
第三节相关问题的讨论和实际应用
参考文献

I. 等价类测试方法的一般测试步骤是什么如何划分等价类

1，先确定等价类别
2，找出有效等价类和无效等价类
3，边界值找好，尽可能多的找的会有重复的数据
4，有效等价类尽可能条件符合的归一起不要重复
5，无效等价类单独写开
6，写好测试用例
7，执行测试用例

导航:首页 > 使用方法 > 常用的测验等值方法

常用的测验等值方法

与常用的测验等值方法相关的资料