当前位置:
文档之家› 第四章 教育测量的质量指标-效度
第四章 教育测量的质量指标-效度
fxy 1(5 5) 3(6 5) 10(7 5) 5(8 5)
二列相关
• 适用于两个变量就其实际含义而言是 等距或等比数据,它们服从正态分布, 其中一列人为地划分为两类。
X p X q pq rb St y 公式(2 - 5)
X p或 X q是二分名称变量中“ 1”或“0”相对应的连续变量的 平均数。 St 是该例连续变量全部变 量值的标准差。 p是二分称名量表中一种 的次数占总次数的百分 比,q=1-p。 y指的是在整个正态曲线 中从左到右概率值为 p时的纵高。
所以可以将效度 rxy定义为 2 2 潜在真分数方差( V )实得分数方差( x )之比, 2 2 2 2 V x ( I E ) 即:rxy 2 2
x x 2 I2 E 1 (公式2 3) 2 x 2 I rxx 2 x
rxy rxx 公式( 2 4)
三、效度的类别与分析验证法
• 1974年美国心理学会发行的《教育和心 理测量的标准》一书将效度分为三大类:
– 内容效度:侧重于测验题目取样的代表性, 考查这些题目对所欲测量的内容和行为反应 测量的有效程度。 – 结构效度:侧重于一个测验的能够测量到心 理学和教学理论上的抽象概念和特质的程度。 – 效标效度:侧重于测验分数预测我们所关心 的外在行为的准确程度。
• • • • 第一,效度始终是针对一定的测量目的而言的。 第二,效度是针对测量结果而言的。 第三,效度只有高或低的程度上的差异。 第四,评价一个测量是否有效要多角度、多方 面地收集证据。 • 第五,教育测量中,效度问题比在其他领域的 测量中更为重要。
一、效度的概念
• 这是因为:
• ⑴教育测量的对象大多是精神现象,只能通过对其 具有可测性的外部表现(如语言或动作等)的测量, 以间接认识其心理活动、心理特征或知识水平等。 • ⑵学生的心理活动、心理特征与其外部表现之间, 一般仅具有相关关系而无函数关系,外部行为并不 能准确无误地反映某种心理状态。 • ⑶教育测量的对象不是物而是有主观能动性的人。 人能有意识地调节自己的外部行为,掩盖自己的内 心活动,这就增加了认识其精神现象的难度。
– 分类:
• 同时效度:测验分数与效标资料的取得约在同一时 间内连续完成,这两种资料的相关系数即为同时效 度
– 目的:诊断现状
–用全国高考的成绩作为效标来检验高中毕业生会考的成绩,计 算两者之间的相关系数就是会考的同时效度
• 预测效度:测验分数取得一段时间后才获得效标资 料,计算这两种资料间的相关系数
例:
某中学数学教研组的教师积多年的教学法经验,认为刚入 高中的学生学习立体几何感到困难的主要原因是空间想像力 弱。 为了证明这个论点,他们让刚入高中的103名学生作10道 题,测量其空间想像力。为避免知道了某些学生的刚入高中 时的成绩影响以后考试的评分,试卷暂不评阅。立体几何学 完后,进行考试,按得分多少把成绩分为五等(A、B、C、D、 E)分别得5、4、3、2、1分。这时才评阅入学时的试卷,统 计出期末得5、4、3、2、1分者在入学测验中分别答对1道题 至10道题的人数(见表2-1)。 就现有资料,用什么方法可以判断教师们的意见是否正确?
三、效度的类别与分析验证法
• 琳恩和格朗兰德提出效度的四个向度, 即内容内容效度、效标关联效度、构想效 度和结果效度。
(一)内容效度及其分析方法
• 内容效度(Content validity)
–又称合理效度或逻辑程度,是指测验内容或行 为取样的代表性和适当程度;即实测内容和预 定测验内容之间的一致性程度。
被试者
1 2 10 1 3 20 1 4 44 0 5 60 0 6 43 1 7 61 1 8 10 0 9 26 1 10 23 0 11 30 0 12 18 1 13 35 1 14 23 1
67 自编测验 的成绩(X) 1 一年后考 试成绩(Y)
• 命中率
– 当测验用作取舍决策时,常使用命中率 – 相关概念:总命中率、正命中率、负命中率 – 总命中率高,则测试的效度高 – 例:
• 70人参加的考试,通过测验选取了50人,淘汰了20人;选出的人中有 40人合格,淘汰的人中有8人不合格。该测验的总命中率、正命中率 和负命中率分别是多少?
1、用积差相关系数的方法估计效度
– 克龙巴赫法(两套测验试题,对相同被试实施测试后,计算得 分的相关系数) – 评分一致性考查法(不同评分者之间评分的一致性程度,即考 查评分者信度) – 前后测对比法(根据前后两次测验的差异显著性,确定测验的 内容效度)
• 统计分析法(定量的方法)
(二)结构效度的验证方法
• 结构效度是指一个测量能实际测量出理论上的 构想或心理特性的程度。它的目的在于用心理 学的概念来说明分析测验分数的意义,也就是 说从心理学的理论观点就测验的结果加以解释 和探讨。
– 目的:预测某个个体将来的行为
–而用大学一年级的成绩作为效标来检验高考的成绩,计算两者 的相关系数就是高考的预测效度。
效标效度的估计方法
• 相关法
– 直接计算测验分数与效标分数的相关系数
• 积差相关、等级相关、二列相关等
• 显著差异法
– 根验分数是 否具有统计学上的差异显著性
f ( y y ) 2 / N 1.12
4(9 5) 2(10 5) 1(5 1) 2203 2203/ 103 5.55 3.58 rxy 0.699 1.941.12 (3)相关系数较大,表明空 间想像力测验成绩与立 体几何 学习成绩有较高的相关 ,前者对后者有一定的 预测效度
表2-1:
(答对的题数) 1 2 3 4 5 6 7 8 9 10 所 评 的 等 级 A B C D E 5 4 3 2 1 1 2 4 1 1 3 1 1 2 6 5 2 1 1 8 9 1 1 3 10 5 4 2 8 4 3 1 8 3 1 1
解:(1)设期末考试的等第为y,空间想像力测 验答对的题数为x,列出二重交叉次数分布表:
St 是该例连续变量全部变 量值的标准差。 p是二分称名量表中一种 的次数占总次数的百分 比,q=1-p。
X p或 X q是二分名称变量中“ 1”或“0”相对应的连续变量的 平均数。
• 例:有一位教师自编了一套测验题,用来预测学生 一年后的某科成绩,自编测验按百分制评分,一年 后考试评分只把学生分为及格者和不及格者。试就 所获资料估计自编测验的预测效度。 • 解:1)把两次测验成绩成对排列:
2、效度与信度的关系
根据公式(2-2)和(2-3),可将效度与信度的关 系图解于后: σV2 σI2 σE2
高效度、高信度
σV2
σV2
σ I2
σI2 σE2
σE2
低效度、高信度
低效度、低信度
根据分析,可得结论如下:1)高信度是高效度的必要条 件,而非充分条件。2)效度系数不会大于信度系数的 平方根。可以用下式表示:
第三章
教育测量的质量指标
第二节 效度
第二节 效度
一、效度的意义 二、效度的统计定义及其与信度的关系 三、效度的分类及估计 四、提高效度的方法
一、效度的意义
• 效度(Validity)
–测量结果的准确性和有效性的程度 – 一个测验或量表实际能测出其所要测量的特 性的程度 – 记为:rxy
一、效度的意义
式中S x 是刚入学的测验各题答 对题数的标准差, S x=
f ( x x) 2 / N
x是刚入学的测验中答对 1道题到 10道题的人数的平均数, x=( 1 2+2 4+3 10 +9 5+10 2) 103 =5.55 S x [2(1 5.55) 2 4(2 5.55) 2 2(10 5.55) 2 ] / 103 1.94 y是期末测验中 103人得分平均数, y=(5 25+4 31 +3 32+2 9+1 6) 103 =3.58 S y 是期末测验各人得分的 标准差。 Sy
二、效度的统计定义及其与信度的关系 1、效度的统计学原理
在实际测量中,影响效度的主要因素是系统误差。 因而在讨论效度时,还必须把真分数方差分解为两 个部分,一是潜在真分数方差(σV2),另一部分 是系统误差分数方差(σI2) ,它与由随机误差引 起的变异(σE2)不同。
2 T2 V I2 (公式2 1) 2 2 2 2 因而, x V I E (公式2 2)
• 这里的结构的含义是心理学理论所涉及的抽象 而属假设性的概念、构想、特性或变量,如智 力、焦虑、机械能力倾向、成就、动机等。
(二)结构效度的验证方法
• • • • 建立理论框架 从理论框架出发,提出各种假设 根据假设编制测验 以逻辑及实证的方法,检验结果是否符合心理学的理 论框架及其假设 • 比如:中学生数学能力的研究 – 数学能力由分析能力、综合能力、归纳和演绎能力、 运算能力、空间想象能力构成;数学能力与早期教 育有关;数学能力与智力正相关。 – 编制测验,施测并收集测验结果 – 分析测验结果,考查测试的结构效度,考查测验结 果是否支持理论构想
点二列相关
• 适用于一列数据为等距或等比且总体服从正态分布(实 际上只需要单峰对称分布,如T分布),另一列变量是 按事物的性质划分为两类的变量,也可以是一个双峰分 布,人为划分为两类,如文盲与非文盲。这种相关系数 多用于测验中评价题目的区分度。对选择题、判断题在 整个测量中作用作出判断。 • 基本计算公式: X p Xq rpb pq 公式(2 - 6) St
• 估计内容效度的方法:
– 逻辑分析法(定性的方法) – 统计分析法(定量的方法)
(一)内容效度及其分析方法
• 逻辑分析法(定性的方法)
– 依据教材内容、教学大纲的范围以及教学目标分析测验内容, 检查测验内容究竟在体现教材内容和教学目标方面达到多大程 度 – 对每一道题目逐一进行审查,以此形成“题目双向细目表” – 与“命题双向细目表”加以对照,以确定试卷的效度