当前位置:文档之家› 《化学教育测量与评价》测试题

《化学教育测量与评价》测试题

《化学教育测量与评价》测试题
姓名:学号:班级:
1、与科学测量不同,教育测量具有哪些特点?请简要阐述。

教育测量:educational measurement,是教育活动中所进行的各种测量。

狭义上通常指,对学校教育影响下学生各方面发展(包括知识、技能、能力、态度、兴趣、品德、性格、心理素质)以及教育措施上的许多问题按一定法则的数理化测定
教育测量的特点:
(1)间接性和推断性
(2)测量属性的抽象性。

(3)测量条件难以控制
(4)测量工具质量检测的复杂性
(5)没有绝对零点
(6)百分计数法原始分数的不等距性
2、化学新课程改革强调多样化的评价方式,谈谈你的认识。

(1)评价目标多维化。

三维目标,科学探究能力、实践能力
(2)评价功能全面化。

强化诊断、发展功能
(3)评价质量信效化。

评价标准清晰、完备,评价有信度、效度、公平性(4)评价实施科学化。

目标明确具体、设计科学合理、方式恰当有效、过程严谨规范、信息客观充分、分析全面到位
(5)评价呈现多式化。

定量定性相结合,等级、分数、文字描述相结合,个体、群体相结合
(6)评价方式多样化。

纸笔测验、活动表现、形成性评价
(7)评价主体多元化。

教师、学生、同伴、家长
(8)评价效果多能化。

提供有效的反馈信息,进行教学诊断,增强学习兴趣、信心、主动性,有助于改进教学和做出正确的教学决策
3、衡量一个测验好坏的指标有哪些?请简要阐述。

(1) 测验分数的分布状态
正偏态:难度偏高,利于区分优秀、中等学生,不利于区分中等和较差学生 正态:各项目难度项目比例合理,测试结果与学生实际一致
负偏态:难度偏低,利于区分差生、中等学生,不利于区分中等和优秀学生 双峰形:两级分化,可以区分中等学生,不利于区分优秀、差生 平坡形:平均化,梯度大,区分度高,但分数之间差异偏大
陡峭形:中等难度题目偏多,梯度小,分布过于集中,不能把各水平学生区分开
(2)平均分(集中趋势,试卷的整体难度)
注意:值越大,越容易
(3)标准差(离散趋势,分数的差异情况)
离差: 方差: 标准差: 问题:标准差大好还是小好?
(1)看测验的目的:达标测试:适当小点, 选拔、竞赛:适当大点 N
X
X ∑=X
X -()22N
X X X -∑=σ()2
N X X X -∑=σ
(2)看结果与学生水平分布实际情况:相吻合→好,不吻合→不好
(4)信度
测验的可靠性、稳定性。

即同一试卷对被试在不同场合、不同时间进行多次考试,所得结果的一致程度。

相关系数: 或:
(1)再测信度:同一试卷、同一被试、两次测试的相关性(斯皮尔曼积差相关公式)
(2)复本信度:平行试卷(等值复本)、同一被试的两次测试的相关性(斯皮尔曼积差相关公式)
(3)分半信度:相同被试在同一试卷两半部分项目得分的相关性(斯皮尔曼积差相关+斯皮尔曼–布朗公式)
(4)同质信度:所有项目之间的相关性(库德-理查逊公式或克龙巴赫a 系数)
• 一般教学测验,信度系数在0.6以上
• 大规模考试,信度系数在0.9左右,最低不超过0.8
问题:影响测验的信度有哪些,如何提高?
①被试方面,身心健康状况、应试动机、注意力、耐心、求胜心、作答态度,样本代表性及水平分布情况。

②主试者方面,实施规范性,或故意制造紧张气氛,或给考生一定的暗示、()()
y X i i N i S NS Y
Y X X r --∑==1
协助,评分标准掌握不一,或前紧后松,甚至是随心所欲。

③施测情境方面,安静、光线、通风、设备、桌面、空间。

④测量工具方面,试题的取样、试题之间的同质性程度、试题的难度、试题数目等。

⑤两次施测的间隔时间,在计算重测信度和稳定性与等值性系数(复本信度之一)时,两次测验相隔时间越短,其信度值越大;间隔时间越长,其他因素带来影响的机会就多,因而其信度值就可能越小。

(注意记忆效应)
(5)效度
测验的有效性、可靠性。

即测验能测量出所要测量的特质的程度。

信度、效度有何区别与联系?
信度高,效度不一定高;效度高,信度一定高。

(1)内容效度
(2)构想效度
(3)效标效度
提高效度:
(1)测验目的要明确,内容要清晰具体
(2)题目设计要针对测验内容,题目表述要准确
(3)评分标准要合理
(4)试题难度要适中
二、项目质量分析
1、难度(项目的难易程度)
客观题 N
R
P
主观题 (1)P 越大,试题越容易(2)难度多少合适取决于测验的目的,大型考试一般要求在0.5左右(3)难度越接近0.5,试题的鉴别力越好
2、区分度
项目对不同能力水平学生的区分程度
(1)相关系数法:项目得分与总分的相关大小
(2)极端组分法:通过比较两个极端组(高分组、低分组)在同一项目上得分的差异:高低组人数=总人数X25-33%(一般选27%)
客观题: 主观题:
区分度评价标准:
0.4以上 优良
0.3-0.39 良好,如能改进更好
0.2-0.29 尚可,需改进
0.2以下,淘汰或重编
3、反应模式
4、定性分析
4、在教育测量中,引起误差的因素有哪些?请简要阐述。

①被试方面,身心健康状况、应试动机、注意力、耐心、求胜心、作答态度,样本代表性及水平分布情况。

W
X
P =L H P P D
-=H H H N R P =L
L L N R P =W X X D L H -=
②主试者方面,实施规范性,或故意制造紧张气氛,或给考生一定的暗示、协助,评分标准掌握不一,或前紧后松,甚至是随心所欲。

③施测情境方面,安静、光线、通风、设备、桌面、空间。

④测量工具方面,试题的取样、试题之间的同质性程度、试题的难度、试题数目等。

⑤两次施测的间隔时间,在计算重测信度和稳定性与等值性系数(复本信度之一)时,两次测验相隔时间越短,其信度值越大;间隔时间越长,其他因素带来影响的机会就多,因而其信度值就可能越小。

(注意记忆效应)
5、某班50名学生一次化学期末考试的成绩以及在第6题(选择题、总分2分)上的得分情况如下:
请计算第6题的难度(P )、区分度(D ),并加以简要地评价。

1、难度(项目的难易程度)
客观题 主观题 (1)P 越大,试题越容易(2)难度多少合适取决于测验的目的,大型考试一般要求在0.5左右(3)难度越接近0.5,试题的鉴别力越好
2、区分度
项目对不同能力水平学生的区分程度
N R P =
W X P =
(1)相关系数法:项目得分与总分的相关大小
(2)极端组分法:通过比较两个极端组(高分组、低分组)在同一项目上得分的差异:高低组人数=总人数X25-33%(一般选27%)
客观题: 主观题:
区分度评价标准:
0.4以上 优良
0.3-0.39 良好,如能改进更好
0.2-0.29 尚可,需改进
0.2以下,淘汰或重编
L H P P D
-=H H H N R P =L
L L N R P =W X X D L H -=。

相关主题