第二章教育测验信度和效度
20
第三节 效度
一、定义
(一)效度的语词定义
效度(validity),指测验的有效性,即量表
实际测量出其所要测量的特性或功能的程度。
(1)效度的相对性
效度和测验目的相关,“这个测验测量什么东
西,以及它在什么程度上测量到所要测量的东西”。 测验结果总有一定的效度,只是高低不同。
(2)效度是测验系统误差和随机误差的综合反应。
11
复本信度(alternate-form reliability)
(1)定义:复本信度是指同一组被试在复本测验上所得结 果的相关系数。
复本测验,又称等值测验,是指在性质、内容、题 型、题数、难度等方面都一致的两份或多份测验。
(2)计算方法:积差相关系数
(3)说明:
1.两个测验必须是等值的,这点比较困难。
2.测验时间间隔的确定,应综合考虑练习效应、 迁移效应来确定,应尽可能短;如果有适当时间间隔,也 可称作等值稳定性系数。
3.适用于速度测验,也适用于难度测验,是考察 信度最可靠、使用最广泛的方法。
4.有高估信度系数的倾向。
2021/2/22
12
内部一致性信度
一、二分记分法的测验(0,1,对错,有无等)
9
180 52
10 165 45
∑ 2021/2/22
10
身高X 1 170 2 173 3 160 4 155 5 173 6 188 7 178 8 183 9 180 10 165 ∑ 1725
2021/2/22
体重 Y X2
Y2
50 28900 2500
45 29929 2025
47 25600 2209
信度一般以两次测验的相关系数来表示。相 关系数代表了两组分数之间的对应程度或关系。
2021/2/22
7
二、信度的估计方法
再测信度(test-retest reliability)
(1)定义:又称为稳定性系数,是指以同一个测验 对同一组被试先后施测两次,所得结果的相关系 数,这是计算相关系数最方便的方法。
根据上述假设编制一套包含以上四个因素的测
一、定义:测验误差是指由与测量目标无关的变因 所引起的不准确和不一致的效应。
测验误差包括:
1.随机误差:由偶然因素引起的无规律的误 差
2.系统误差:由某些常定因素引起的有规律 的变化,是对测量结果的一种偏差。
系统误差的出现是不应该的,是测验编制中出现
的错误;而随机误差则是不可避免的,受一些偶
然的、不可预见因素的影响产生,是我们本节内
好的结构效度。结构效度适用于智力测验、人格
测验,也可用于教育领域。
2021/2/22
28
例:计划编制一套少年道德品质倾向形成原因测 验,则根据青少年道德品质形成的原因论,提 出以下几点假设:
1.与家庭因素密切相关 2.与居住地区和环境有关系 3.与学校教育有关系 4.与他们在校内外结交的朋友有关系
即系统误差,σS2 。 (3)误差引起的方差,即随机误差,σe2 。 ◆则效度的统计公式:
Val = σv2 / σt2
2021/2/22
22
(三)信度和效度的关系
σx2 = σt2 + σe2 σx2 = σv2 + σS2 + σe2
σt 2 = σv2 + σs2
从上述公式可以推出,较高的信度为较高的 效度提供了可能性,但是具有较高的信度并不能 保证必定会具有较高的效度,因此,信度是效度 的必要条件,但不是充分条件。
指测验对于人的假设属性或理论概念测量到的程
度,又叫作“构想效度”。
假设属性或理论概念是抽象的,在现实世界
中没有与这种属性直接相对应的东西存在,而是 被假设存在的属性,如智力、成就动机等。
在实际的教育测验中,人们先提出概念,然
后将概念具体化为具体结构,并以此编制测验,
如果测验结果测量到了结构,则说明测验具有较
◆计算公式——用原始观测值计算 皮尔逊相关系数(Pearson)
2021/2/22
9
例1:下表是10名中学生身高和体重的测量结果,问 身高与体重的关系如何?
身高X 体重 Y X2
Y2
XY
1
170 50
2
173 45
3
160 47
4
155 44
5
173 50
6
188 53
7
178 50
8
183 49
2 t
)
k:测题数目 p:表示每个测题做对人数的比率 q=1-p
p :表示答对人数比率的平均数
q :表示各题答错人数比率的平均数
2021/2/22
rtt=
k
k
1
·(1-
xt
(k xt
k
2 t
)
)
14
例2:对初中一年级学生进行地理成绩测验,每答 对一题得1分,答错1题得0分,试估计该测验的折 半信度。
测题组根据所考察的目标进行划分;然后,对 每个测题组采取常模参照性测验的信度估计方法。
(2)阶段比较法
第一次测验
第二次测验
经过学习训练后,第一次测验中通过的学生在第 二次测验中通过率较高,则说明信度高。
(3)复本信度估计法 rtt=(a+d)/n
2021/2/22
甲测验 通过 未通过
乙
通过
a
b
测 验
未通过
c
d 19
三、提高信度的方法
◆信度系数以多大为宜 学科测验:0.9以上;智力测验:0.8以上;
品德测验:0.6以上 ◆提高测验信度的方法
1.适当增加测题的数量 2.测验的难度要适中 3.测验的内容应尽量同质 4.测验的程序应统一 5.测验时间要充分 6.评分要尽量做到客观化、减少评分误差
2021/2/22
4.被试的健康状态、疲劳因素等
(6)机遇引起的测验误差
猜测或意外干扰
2021/2/22
6
第二节 信度
一、定义
信度(Reliability),是指测验的可靠性, 即在不同时间,使用同一测验,或者使用两个不同 项目的等值测验,抑或在其他不同的测试条件下, 对同一组被试实施两次测验所得分数的一致性。
信度和误差的关系:误差越小,信度越高; 误差越大,信度越小。
44 24025 1936
50 29929 2500
53 35344 2809
50 31684 2500
49 33489 2401
52 32400 2704
45 27225 2025
485 298525 23609
XY 8500 7785 7520 6820 8650 9964 8900 8967 9360 7425 83891
1题 2题 3题 4题 5题 6题
1
1
0
0
0
0
0
2
0
0
0
1
0
0
3
1
0
1
0
0
0
4
1
1
0
0
1
0
5
1
1
1
0
1
1
6
1
1
1
1
0
1
7
1
1
0
1
1
0
8
0
1
1
0
0
19Biblioteka 1111
1
1
10 2021/2/22
1
0
0
1
0
0 15
二、非0,1记分测验的内部一致性信度
1.主要采用克伦巴赫(Cronbach)信度系 数,即α系数。
测验复本1 前测成绩
学习训练
测验复本2 后测成绩
如果前测成绩和后测成绩之间是否具有显 著性差异,且后测成绩优于前测成绩,则说明 该测验对学习训练的内容而言具有较高的内容 效度。
2021/2/22
25
例:在《社会发展简史》第一单元教学前,对学生进行有 关这一单元内容的测验,教学之后再以复本测验施测,结 果如下,试估计测验的内容效度。
(三)表面效度
表面效度是指测验在表面上被被试直觉感到
的有效性程度。表面效度不是真正的效度,但编 制测验时应当加以考虑,若被试认为测验无效的 话,则会对测验缺乏信任。
表面效度与内容效度常常混淆,而事实上,
两者是不同的。
2021/2/22
27
结构效度
(一)定义:
克伦巴赫和米海尔(Meehl)在1954年首创,
容所关注的。
2021/2/22
4
二、引起测验误差的因素
(1)测验本身的误差:
如测验题目选择是否有代表性;被试对测验 题目的熟悉程度和知识范围;测验是否限定时间; 指导与是否清晰;测验材料是否标准;所用仪器是 否精确;题目用词是否准确等等
(2)测验施测过程的误差
1.物理环境:施测现场的温度、光线、噪音、 通风等;2.外界环境的干扰:卷子印刷质量差或 发错、有人作弊、天气陡变等
2021/2/22
13
(2)库德-理查德(Kuder-Richardson)信度:根 据各个问题的正确反应数为基础,或根据各人总 分的均值和标准差来计算信度系数。
计算方法:K-R20和K-R21
K-R20
公式:rtt=
k
k 1
·(1-
2 pq
2 t
)
K-R21
公式:rtt=
k
k 1
·(1-
k pq
(3)效度总是针对测量结果而言。
(4)判断一个测量是否有效要从多方面收集证据。
2021/2/22