第2章 测量误差与经典测量理论
学习目标
- 理解心理特质的可测性
- 掌握心理测量误差的类型和来源
- 理解真分数的含义
- 掌握经典测量理论的基本假设
心理特质的可测性假设
心理特质:表现在一个人身上所特有的相对稳定的行为方式称为心理特质。是内隐的、非实体性的客观存在。
心理特质的性质:
- 抽象性:特质是一组具有内部相关的行为的概括。
- 跨情境性:特质是一种一般的神经心理系统,可以综合不同的刺激,使人对这些刺激做出相同的反应。
- 稳定性:特质是一个人身上相对稳定的特点。
- 层次性:特质可以分为多个层次,比如大五人格包含神经质、外向性、开放性、宜人性和尽责性等维度。
- 预测性:特质可以决定一个人对特定刺激的反应倾向,可以对人的行为进行某种预测。
心理特质的可测性假设:心理特质是一种相对稳定的存在,是可以测量的。
心理测量的难点
人的心理特质具有隐蔽性。
心理特质的测量相对困难,无法直接测量,只能通过被试对一些刺激的行为反应来推测,即进行间接测量。
心理测量工具的编制难度大、耗时久。
心理测量所依据的法则在很大程度上只是理论,目前很多理论还不够成熟,难以达到被人们普遍接受的水平。
“凡是存在的事物,都有可能被错误地测量。” (Detterman, 1979)
心理学研究的“可重复性危机”。
测量误差及其来源
测量误差的定义
测量误差指在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确(效度)
测量误差的种类
系统误差
定义:系统误差指与测量目的无关的变量所引起的一种恒定而有规律的效应。 表现形态:系统误差恒定而有规律,存在于每一次的测量中,误差的方向和大小一致。 导致结果:尽管多次测量的结果非常一致,但实测结果与真实数值有所差异,导致测量结果不准确。不能通过增加测量次数求测量均值予以抵消。误差来源:测量工具、主试
随机误差
定义:随机误差指与测量目的无关的、偶然因素引起的不容易控制的误差。 表现形态:随机误差由偶然因素引起,难以控制,误差的方向和大小没有什么规律。 导致结果:随机误差导致测量结果不一致、不稳定。可以通过增加测量次数来减少随机误差。误差来源:测量对象、测量过程。
| 类型 | 产生原因 | 结果表现 | 特点 | 信效度 |
|---|---|---|---|---|
| 随机误差 | 偶然因素 | 方向和大小完全随机 | 影响稳定性和准确性 | 降低信度和效度 |
| 系统误差 | 稳定因素 | 恒定效应 | 影响准确性 | 降低效度 |
测量误差的来源
没有任何测验是完全有效或者可信的,所有的测验都是不完美的并且存在误差。
测量工具
心理测量工具通常是一套以测验为核心的刺激反应系统,测量工具造成的误差主要来自测验的编制过程。
- 测验题目取样不当:太少或缺乏代表性。
- 测验题目设计不妥:比如数学题目取决于文字理解能力。
- 测验题目难度不适:过高或过低。
- 测验题目表述不当:模棱两可,令人费解。
测量对象
- 测验焦虑
- 测验焦虑是指被试在测试前和测试中所出现的一种紧张的、不愉快的情绪体验。
- 测验焦虑会影响被试的反应水平,从而影响被试的成绩。一般来说,适度的焦虑会让被试的兴奋性提高,注意力增强,反应速度加快,从而对测验产生积极影响。过高的焦虑则会使工作效率下降、注意力分散、思维狭窄、反应变慢,从而降低测验成绩。
- 一般来言,测验焦虑水平与测验成绩呈倒 U 型曲线关系。
- 测验经验
- 被试对测验的经验也会影响测验成绩,如果不同被试对测验的程序和技能熟悉程度不同,所得分数不能直接比较。
- 任何时候只要引入一种新的题目形式或一种新的反应程序,由于被试对其比较陌生,理解上可能产生错误,最终会带来偏差。
- 多数情况下,测验都会设置练习程序,让被试熟悉。
- 采用电脑或平板电脑做实验的话,对于不熟悉电子设备的老年人,需要花一定时间让其适应。
- 一些脑成像实验,实验前需要让被试熟悉如何按键反应;对于部分儿童被试来说,如果在模拟磁共振扫描仪尝试的话,会提升正式实验数据的可用性。
- 学习、发展和教育
- 由一般的学习经验或发展变化所引起的测验分数上的差异,在大多数情况下只构成系统误差。
- 大多数人对某个测验没有准备,只有少数人获得了特殊训练。
- 两次测验间隔期中,有的人获得了特殊的教育和训练,而其他人没有。由于被试接受的训练量不同,他们的分数会受到不同影响,表现出随机误差。
- 测试动机
- 被试对测验的动机不同,会影响其答题的态度、耐心、注意、反应速度等,从而影响测验成绩
- 入职或入学时开展的人格测验或心理健康测验,有些人可能会考虑雇主或学校的期望因素,而没有按真实情况作答。
- 练习效应
- 任何一个测验在重复使用时,由于被试对测验的内容和程序熟悉,因此会产生练习效应,从而提升测验成绩。
- 能力测验方面,练习效果如下:
- 练习对于智力较高者,效果较为显著。
- 着重速度的测验,练习效应较为明显。
- 完成同一个测验比完成复本测验的效果显著。
- 两次测验的间隔越长,练习效果越小;相距三个月以上,练习效果可以忽略不计。
- 不同测验形式和内容,练习效应存在不同。
- 反应倾向
- 反应倾向是指独立于测验内容的反应倾向,这种反应倾向也会影响测验成绩。
- 速度测验:测验时间有限,体量大,求快和求准两种不同倾向会对测验成绩产生影响。
- 是非迫选题:有些人偏好选“是”,有些人偏好选“否” 。
- 五点或七点计分量表:有些人倾向于选中间,有些人倾向于选极端。
- 人格测验:有些人可能会掩饰自己的部分特质。
- 生理因素
- 生病、疲劳、失眠等生理因素都会影响测验成绩。长期失眠者、短期失眠者,在注意切换任务及工作记忆任务上,成绩均低于对照组。
- 安慰剂效应和反安慰剂效应
- 安慰剂效应(Placebo Effect,又称伪药效应、假药效应、代设剂效应):指病人虽然获得无效的治疗,但却“预料”或“相信”治疗有效,而让疾病症状得到缓解的现象。
- 安慰剂效应并不是由所服用的药物引起的,而是基于病人心理上对康复的期望。
- 反安慰剂效应 (nocebo effect):病人不相信治疗有效,可能会令病情恶化。
测量过程
- 测量的物理环境
- 施测现场的温度、光线、声音、桌面高低、空间宽窄等皆有影响。
- 测试时间
- 时间安排不当(比如晚上 10 点安排实验),时限不一致,也会影响测验结果。
- 主试因素
- 主试的年龄、性别、外表,施测时的言谈举止,表情动作等均会影响测验结果。
- 不同主试给被试讲解指导语的详细程度、次数、或给予被试练习的时间不同。
- 主试对测验重要性所传达的观点、情绪支持的程度及监考方式可能不同。
- 主试是否按照规定进行施测、计时错误等。
- 意外干扰
- 在测验环境复杂,特别是测试人数较多时,容易发生处于预料的干扰或分心事件。
- 考场突然停电。
- 突发高分贝的噪音。
- 电脑卡顿、黑屏、死机。
- 问卷印刷不清、没有答题纸、装订错误等。
- 评分计分
- 评分不客观,测验成绩录入、计算等过程出错也是常见的误差。
- 计算错误。
- 阳性和阴性症状量表,包括阳性量表分(7 个题目)、阴性量表分(7 个题目)和一般精神病理分(16 个题目),评分是 1 到 7,1 代表无,7 表示极重度。阴性和阳性量表得分范围是 7-49 分,曾有学生计算得出阳性量表分 55 分,阴性量表分 60 分。
- 数据录错行。
- 数据复制/粘贴错误。
- 被试不理解指导语
- 一些受教育程度较低的被试、年龄太小或太大的被试、临床群体,对有些测验的要求可能不理解.
经典测量理论
真分数与观察分数
人的心理特质水平经过测量之后得到一个数值,但由于测量误差的存在,这个数值难以与该特质的真正水平一致,总是围绕真实水平值变化。
真分数(True Score,简称 T 分数):反映被试某种心理特质真正水平的数值。
- 真分数指在测量中不存在误差的真值。
- 可以这样理解真分数:
- 真分数是对一个人实施无数次测量所得分数的平均数。
- 真分数是假定对一个人施测了某一领域中所有问题时,被试所能获得的分数。
- 任何一种测量中总会存在测量误差,只能最大程度地减少测量误差,而不可能使误差减少到零。因此,不可能测量到真分数,真分数只是一个理论上的概念。
心理测验实际测量到的分数是心理特质的观察分数(Observed Score,一般记作 X)。
经典测量理论的基本假设
经典测量理论 (Classical Test Theory, CTT) 的核心概念是真分数,它的基本假设就是对真分数 T、观察分数 X 和测量误差 E 之间关系的描述。
CTT 的数学模型是:X=T+E
对 CTT 模型的理解
- 在问题研究范围内,反映个体某种特质的心理水平的真分数 T 是假定不变的,取值是常数。测量任务就是估计这一真分数的大小。
- 观察分数被假定等于真分数与误差分数之和。 即观察分数与真分数之间是线性关系。
- 测量误差是完全随机的。
- 测量误差是平均数为零的正态随机变量。
- 测量误差跟被测心理特质即真分数间相互独立。
CTT 模型的三个相关联的假设公理
平行测验:对于测验总体中的任意一个被试而言,若他在两个测验上的观察分数同时满足 CTT 的数学模型和假设,并且具有相等的真分数和相等的误差标准差,则这两个测验被称为严格的平行测验。通俗来说,如果两个题目不同的测验测的是同一心理特质,并且题目的形式、数量、难度、区分度以及测验得分的分布都是一致的,则这两个测验被称为彼此平行的测验。
基本等价测验:对于测验总体中的任意一个被试而言,若他在两个测验上的观察分数同时满足 CTT 的数学模型和假设,并且其真分数之间相差一个常数,则这两个测验被称为基本等价测验。
假设公理 1:若一个人的某种心理特质可以用平行测验反复测量足够多次,则其观察分数的平均值接近于真分数。 即:
假设公理2:误差分数与真分数之间的相关为 0。 即:
假设公理3:各平行测验的误差分数之间相关为 0。 即:
- 测量误差独立于真分数,并且测量误差之间是独立的。
- 假设公理 2 和 3 说明 E 是随机误差,不包含系统误差。
在测验时,不是用许多平行测验反复测查同一批被试,而是用同一测验同时测查许多被试。由于每个人的误差都是随机的,且服从均值为零的正态分布,所以当被试团体足够大时,团体内的随机误差会相互抵消,整个团体测验观察分数的均值会趋近团体真分数的均值。多个被试接受同一测验相当于多个平行测验反复测查具有团体真分数均值水平的一个个体。
根据 CTT 模型和假设,有:
其中真分数可分为目标真分数 V(反映被试某种心理特质真正水平的数值)和非目标真分数 I(被试在某种心理特质测量量表上表现的与测量目的无关的稳定值,即系统误差)。从而有:
经典测量理论的优点和不足
经典测量理论的优点
- CTT 依据弱假设而形成,分析时不要求严格的拟合性检验,因而适用于绝大多数的心理与教育测验资料。
- 比较小的样本量就可以满足分析要求。
- 采用的公式简单明了,浅显易懂。
- 模型的参数估计具有概念上的直观性。
- CTT 开发出的一些研究领域,比如对测验效度的验证,现代测量理论(概化理论和项目反应理论)尚未给出更有建设性的思路。
- CTT 在未来相当长时间内仍然会继续得到广泛应用。
经典测量理论的不足
- 真分数与观测分数间存在线性关系的假定不符合事实。
- 项目统计量(难度和区分度)严重依赖于被试样本。
- 被试测验分数依赖于项目的难度,使得进行不同测验的被试难以比较。
- 测验信度建立在平行测验假设的基础上,但严格的平行测验是不存在的,即使同一测验在不同时间施测,测验分数也会存在较大变异。
本章小结
- 心理特质是表现在一个人身上所有特有的相对稳定的行为方式 。
- 测量误差是测量过程中,与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。
- 测量误差分为随机误差和系统误差。
- 误差来源于测量工具、测量对象和测量过程三个方面。
- 真分数是反映个体某种心理特质真正水平的数值,是一个理论上的概念。
- 经典测量理论的基本假设是观察分数和真分数间是一种线性关系。
课后思考题
- 何为心理特质,心理特质有哪些性质?跳转知识点
- 表现在一个人身上所特有的相对稳定的行为方式称为心理特质。是内隐的、非实体性的客观存在。
- 心理特质的性质:
- 抽象性:特质是一组具有内部相关的行为的概括。
- 跨情境性:特质是一种一般的神经心理系统,可以综合不同的刺激,使人对这些刺激做出相同的反应。
- 稳定性:特质是一个人身上相对稳定的特点。
- 层次性:特质可以分为多个层次,比如大五人格包含神经质、外向性、开放性、宜人性和尽责性等维度。
- 预测性:特质可以决定一个人对特定刺激的反应倾向,可以对人的行为进行某种预测。
- 何为测量误差,测量误差分为哪两类?
- 测量误差的来源有哪些?跳转知识点
- 测量工具:测验的编制过程中测验题目取样不当、设计不妥、难度不适、表述不当。
- 测量对象:测验焦虑,测验经验,学习、发展和教育,测试动机,练习效应,反应倾向,生理因素,安慰剂效应和反安慰剂效应。
- 测量过程:测量的物理环境,测试时间,主试因素,意外干扰,评分计分,被试不理解指导语。
- 什么是真分数?跳转知识点
- 真分数(True Score,简称 T 分数):反映被试某种心理特质真正水平的数值。
- 真分数指在测量中不存在误差的真值。
- 可以这样理解真分数:
- 真分数是对一个人实施无数次测量所得分数的平均数。
- 真分数是假定对一个人施测了某一领域中所有问题时,被试所能获得的分数。
- 任何一种测量中总会存在测量误差,只能最大程度地减少测量误差,而不可能使误差减少到零。因此,不可能测量到真分数,真分数只是一个理论上的概念。
- 真分数(True Score,简称 T 分数):反映被试某种心理特质真正水平的数值。
- CTT 模型及其假设的主要内容是什么?跳转知识点
- 经典测量理论 (Classical Test Theory, CTT) 的核心概念是真分数,它的基本假设就是对真分数 T、观察分数 X 和测量误差 E 之间关系的描述。
- CTT 的数学模型是:X=T+E
- CTT 模型的三个相关联的假设公理:
- 假设公理 1:若一个人的某种心理特质可以用平行测验反复测量足够多次,则其观察分数的平均值接近于真分数。即:
或 - 假设公理2:误差分数与真分数之间的相关为 0。即:
- 假设公理3:各平行测验的误差分数之间相关为 0。即:
- 假设公理 1:若一个人的某种心理特质可以用平行测验反复测量足够多次,则其观察分数的平均值接近于真分数。即:
- 什么是平行测验?跳转知识点
- 平行测验:对于测验总体中的任意一个被试而言,若他在两个测验上的观察分数同时满足 CTT 的数学模型和假设,并且具有相等的真分数和相等的误差标准差,则这两个测验被称为严格的平行测验。通俗来说,如果两个题目不同的测验测的是同一心理特质,并且题目的形式、数量、难度、区分度以及测验得分的分布都是一致的,则这两个测验被称为彼此平行的测验。
- 在测量中应该如何控制或减少测量误差?
扩展阅读
- Gulliksen H. (1950). Theory of mental test. New York, NY: John Wiley.
- Yerkes RM, Dodson JD. (1908). The relation of strength of stimulus to rapidity of habit-formation. Journal of Comparative Neurology and Psychology. 18(5): 459-482.
- Cowen AS, Keltner D, Schroff F, Jou B, Adam H, Prasad G. Sixteen facial expressions occur in similar contexts worldwide. Nature. 2021; 589(7841): 251-257.
芷沐沐