第四章效度
1、测验内部寻找证据法
(1)确定内容效度作为结构效度的证据 例如,编制语文能力测验时,编制者将总体内容
描述为对词汇下定义、对语言做类比推理、以及在句 子中正确运用文字的能力,这在实际上就是给“语文 能力”的构想下了定义。 (2)分析被试的答题过程
例如,在人格测验上有这样一些题目:“当事情 不顺我意时,我时常动怒。”“我总避免批评别人的 言行。” (3)通过计算测验的同质性信度来检验结构效度
实证效度是指一个测验对处于特定情景中的个体的行为进行估计的 有效性
一、内容效度
定义:内容效度指测验实际测到的内容与所 要测量的内容之间的吻合程度。
适用于成就测验、选拔和分类的职业测验, 不适于能力倾向测验和人格测验。
注意与表面效度的区分
能力
积极的行为指标
1、同情 形成使病人安全的气氛;
心及敏 严肃地对待病人,对其医疗保密;
二、教材內容(以纵轴表示) 以出题的范围,表示出包含几个不同的单元。
以台湾学校教育文科为例
知识 理 应 分 综 评 总和 解用析合价
唐诗 8 8 4 4 2 2 28 文言文 6 4 6 4 2 2 24
新诗 8 6 4 4 2 2 26 散文 6 4 6 2 2 2 22 总和 28 22 20 14 8 8 100
以相同方法测量不同特质所得的分数之间的相关应较 低,
以不同方法测量不同特质所得的分数之间的相关应最 低。
若合乎上述的情形,即表示这套测验同时兼有相容效 应和区分效度,这是考验构想效度的新途径。
语文 理解
数学 推理
一般 常识
言语 测验
操作 测验
教师 评定
资料来自于Mosher(1968)的一项研究报告,他假设了三 种不同结构,名为“性罪恶感”、“敌对罪恶感”和“道 德良心”,使用了是非判断、迫选和完成句子多种测验方 法对62名女性被试样本施测。
三、效度与信度的关系
根据公式S2X=S2V+S2I+S2E,可以 得到信度与效度的关系如下: 1、信度高是效度高的必要而非充分条 件 2、测验的效度受它的信度制约
信效度关系
S
2 X
SV2
S
2 I
S
2 E
ST2
S²E↓, S²T↑, rxx↑
信度高,给 S²V 增加提供可能 – 能否提高效度,再看S²I大小 – 信度高不一定效度高
感性
快速理解病人的情绪和心情;
医
……
生
2、沟通 显示主动倾听的技能;
职
技巧
不是以恩人的态度出现;
业
在方法上有信心;
要 求
……
3、临床 相信你的临床判断;
专业技 临床能力;
术
提供预想的照顾;
……
内容效度与表面效度的区别
(1)表面效度是由外行对测验做表面上的检查 确定的,而内容效度是由够资格的判断者(专家) 详尽地、系统地对测验评价而建立的。
(5)发展水平的变化 许多智力量表的效度验证都使用了智力的年龄差异这一
特点。
(6)实验操作
根据不同测验具有不同的特性,我们可 以预期经过某种实验处理之后将会发生哪些 变化,以此推测测量某个心理结构的测验的 结构效度。
比如说,我们可以预期,将某个人放在 容易产生焦虑的环境中,其焦虑测验得分会 有所变化。如果预期得到证实,就说明这个 测验有结构效度。这种方法实际是要比较实 验处理前后测验得分的差异。
一个测验要有效必须具备以下几点:
1)效度系数显著地大于0,即同一特质的各种不同测量 应有正相关;
2)以不同方法测量同一特质的相关必须高于不同的特质 用同一方法来测的相关。也就是说,特质的差异必须比方 法的差异更重要;
3)效度系数必须高于不同特质用不同方法测量所得之相 关。
其他考察结构效度的方法
1、逻辑分析法
含义
– 专家按测题和假设内容范围作出的符合度判断
作法与程序
– 明确欲测内容的范围 – 与双向细目表对比; – 制定评定量表;
局限
– 无良好的数量指标描述这种符合性的程度; – 不同专家对同一测验内容效度的判断可能不一致; – 不同专家对内容范围会有不同的理解
双向细目表(举例)
一、教学目标(以橫轴表示) 以Bloom所提的认知领域六个教学目标为依据:知识、理解、 应用、分析、综合、评价。
1。寻找测验依据的理论定义: 全美智力落后协会(AAMD)对适应行为的定义是:个体实现
人们所期待的与其年龄和文化群相适应的个人独立与社会职责 的程度和功效。 2。根据理论定义提出假设:
比如,随着年龄增长,适应行为得分应逐步提高;弱智儿童 和正常儿童相比,前者的适应行为显著弱于后者;儿童的适应 行为表现与其所处的社会经济、文化背景有关。 3。搜集资料,验证假设
(三)搜集结构效度资料的方法
结构效度无单一的效度指标,要从多方面的资料来源,经过 长期的、艰苦的搜集和积累证据资料的过程,才能逐步验证测 验的结构效度。常用于搜集结构效度资料的方法有如下几种。
1、测验内部寻找证据法 2、测验之间寻找证据法 3、考察测验的实证效度法 4、多种特质——多种方法矩阵 5、发展水平的变化 6、实验操作
2、统计分析法
信度指标——复本信度
复本1
复本2
✓r高:内容效度 ✓r低:至少一个缺乏内容效度
被试团体
3、再测法
前测
后测
被试经过预测知识的教学
内容效度的评价
内容效度不但是评价学绩测验的最适合的 方法,而且编制任何测验都要加以考虑的 方面。
它的主要缺点是缺乏理想的数量指标,因 而妨碍了信息交流和各测验间的相互比较。
1966年美国心理学会在《教育心理测验值标准》中将效度分为三大 类: 1.内容效度(Content Validity)
内容效度指测验实际测到的内容与所要测量的内容之间的吻合程度。 2.结构效度(Construct Validity)
结构效度是指测验对于被称作构想的某一理论概念或特质测量的程 度。 3.实证效度(Criterion related Validity)
例如,MMPI中有这样的题目:“我的喉咙 里总好象有一块东西堵着似的。”
(2)表面效度不是效度的客观指标,但能对受 测者的动机产生影响,因而也会影响到效度。
最高行为测验要求有较高的表面效度,典型 行为测验却要求较低的表面效度。
1、逻辑分析法 2、统计分析法 3、再测法
内容效度的评估方法
内容效度的评估方法
对结构效度的评价着眼点放在提出假设、检验假设上, 因此使心理测验不再只是作实际决定的辅助工具,同 时还成为发展心理学理论的重要工具,从而使测验有 了更广阔的发展前景。
缺点: 有些构想概念模糊,缺乏一致的定义。 确定效度时没有明确的操作步骤与程序。 结构效度是通过对测验测量什么、不测量什么的证据加 以积累确定的,因而没有单一的数量指标来描述有效 的程度。
相容效度可 看做是同时 效度的一种
(二)效标
效标就是衡量一个测验是否有效的外在 标准,它是独立于测验并可以从实践中直 接获得我们所感兴趣的行为。
需注意的知识点:
观念效标 效标测量
在测验手册中报告实证效度时, 不但要说明使用说明作为效标, 还要说明这些效标来自说明团 体。
乘法 0.10 0.70 0.30 0.85 0.01 0.49 0.09 0.26 0.15
3、考查测验的实证效度法
其一,根据效标把人分成两类,考查其得分。 其二,根据测验得分把人分成高分组和低分
组,考察这两组人在所测特质方面是否确 有差异。
(4)多种特质——多种方法矩阵法
坎贝尔和费司克(1959)
效度要高,S²V须占较大比重,S²T↑ – 效度高,信度必高
SV2
SI2
SE2
ST2 SX2
SV2
SI2
SE2
ST2
SX2
SV2
SI2
ST2
SE2
SX2
rx↑y rxx↑ rx↓y rxx↑ rxy↓ rx↓x
2.测验的效度受它的信度制约
信度系数的平方根是效度系数的最高界限 根据效度和信度的定义(r2xy= S²V/ S²X, rxx=
三 、实证效度
(一)实证效度的含义、种类及作 用
定义:实证效度是指一个测验对处 于特定情景中的个体的行为进行估计 的有效性。也称为效标关联效度。
被估计的行为是检验测验效度的标 准,简称效标。
根据效标资料搜集的时间差异,实 证效度可以分成同时效度和预测效度 两种。有人把二种效度都称为预测效 度,并把测验称作预测源。
S²T/S²X )以及S²T= S²V + S²I
可得r2xy= (S²T - S²I )/ S²X= rxx- S²I/S²X ) S²I>0 r2xy< rxx
第二节 效度的估计
要确定测验在解决某方面问题时的效度,需要收集充分的客观事实 材料和证据,这种收集大量资料和证据来检验测验效度的工作过程就叫 做效度验证。
实质上是相容效度法和区分效度法的综 合运用
原理是若用多种极不相同的方法测量同 一种特质相关很高,则说明测量效度 较高(相容效度即属此类)。
从理论上看,测验的结果应与其所要测的特质有显著 相关而与其他不相干的特质无关。
以相同方法测量相同特质所得的分数之间应具有最大 的相关,
以不同方法测量相同特质所得的分数之间应具有次大 的相关,
– 通过缩减变量的方法,用反映变量本质联系的少数 几个基本因素(或公共因素)来说明先前需要用较 多变量才能说明的原因或特性。
100名学生在9个不同学科间的相关系数
两个假想测验的因素效度及其变异来源
测验 共同因素负荷 信
作用比例
度
系
言 数字 推 数 言 数 推理 特 误