当前位置:文档之家› 从量化角度谈质量监控

从量化角度谈质量监控


2008
150
10.2万
124.8
0.832
123±2
24.38
95.57%
43.03%
1034
注:由于2005年试卷满分为120分,(*)表示分数不低于60分的人数所占比例,(**)表示分数不低于109的人数所占比例 2018/5/9 闵行交流
33
难度
近四年中考某学科试卷考试成绩总体情况表
年份 总分

常模参照:确定学生在群体中的相对位置
类似高考、初三、高三模拟考试 标准参照:说明学生在多大程度上达到了所要求 的学科标准 学校内部阶段性考试 增长参照:解释并确认学习的作用以及学习的增 长也促进情况 教师和家长很看中学生在学习中的进步,但很 少将其作为评分的基础,一些专家认为其可以作 为常模参照和标准参照的解释的补充
考生人 数
平均分
整卷难度
预计整卷平均分
均方差
及格比例(≥72)
优秀比例(≥135)
满分人数
2005
120
11.7万
100.01
0.833
97±2
24.96
91.5%(*)
51.8%(**)
4707
2006
150
11.6万
119.67
0.798
120±2
31.76
90.22%
42.27%
3569
2007
5 14 7 13 9 12 1 12 3 11 5 10 97
33 25 17
49 41
73 65 57
89 81
ZF
9 1
SX
2018/5/9
闵行交流
32
总体情况
某学科试卷考试成绩总体情况表
年份 总分 考生人数 平均分 整卷难度 预计整卷平均分 均方差 及格比例(≥72) 优秀比例(≥135) 满分人数
2018/5/9
闵行交流
21
项目反应理论的缺点


由于是概率模型,所以数学模型与实测数据的 拟合要求高; 题目反应理论是一维性假设,即在模型性使用 中,要求试题只测试单个心理特质。这个假设 要求非常高,目前没有很好的方法可以去验证。 但目前世界上不断地就多维情况开发相应的理 论模型,已经进入实际使用中。

技术指标:信度、效度、区分度、难度(注意
不同考试类别,所用公式不同)
2018/5/9
闵行交流
6
教育测量与评价的基本问题

测量的基本含义
测量的过程是赋值的过程 测量往往包含在某评价或评定中,更多的被看成一种基本的研究手段 人的心智的复杂性,决定了测量对象相关因素之间是不明确的,大量的概率模型被广泛的使 用
2018/5/9闵行Fra bibliotek流22
命题技术控制


攻克难点:建立阶段性测试的评价目标 明确两个关系: 课程标准与考试标准的关系 使用对象不同 性质与功能不同 可测程度不同 稳定程度不同 教材与考试标准的关系 命题要点:命题的目的、原则及指导思想
注意: 1、对于高利害性的考试,命题必须守住如下底线: 科学性 公平性 难度 2、考试标准与课程标准的一致性
2018/5/9
闵行交流
18
2018/5/9
闵行交流
19
项目反应模型


二级评分IRT模型 例:逻辑斯蒂模型 单参数模型(拉希模型);双参数模型和三参 数模型。 多级评分IRT模型 连续型IRT模型
2018/5/9
闵行交流
20
项目反应理论的优点及运用



能力参数估计的不变性。 即个体独立于测验 项目参数估计的不变性。 即测验独立于个体 提供被试能力估计值的精确度指标 被试能力和项目难度在同一量表上,为测验编 制、测题分数的报告和解释提供了便利。

评价的基本含义
评价是价值分析、衡量和判断的过程 测量不能代替评价,测量是一个量化过程,评价是一个定性过程 在数学教育中,评价目标往往是: 数学事实,包括定义、定义、公式,某些特殊的证明等 获得数学结果的标准方法与技能 标准的应用,即典型的非数学情境,通过明确的数学手段完美处理
1.
2.
3.
2018/5/9
2018/5/9
闵行交流
15
经典测量理论的局限性


抽样变动大 能力难比较 复本难实施 缺乏预测力
2018/5/9
闵行交流
16
IRT的特点

基本思想:潜在特质 基本思路 确定被试的心理特质值和他们对于项目的反应 之间的关系,这种关系的数学形式就是“项目 反应模型”。IRT的核心就是数学模型的建立 以及对模型中各个参数的估计。
1、所要测的量,记 间是相互独立的; 3、观察分数,记 X ,是真分数与误差分数 的和,可以用如下数学模型表示
X T E
闵行交流
2018/5/9
14
经典测量模型的特点与优点



理论假设是要求不高,是弱假设。从经验的判 断,有较强的可接受性。 这套理论经过近六十多年的发展和实践,形成 里较为完善的测验理论及对试题和试卷进行统 计分析方法,方法简单,直观,易掌握。 在我国教育工作者应用中有一定的普遍性。
闵行交流
7
教育评价相关概念分析

教育测量与教育评价
教育评价是教育测量的一种延续

测验与考试
测验是对行为样本的客观的和标准化的测量 考试一般指在比较正式场合下的测验,目的性比较强
2018/5/9
闵行交流
8
评价
测验
测量
2018/5/9
闵行交流
9
教育评价的过程的四个步骤:



确定教育目标; 设计评价情境,这必须依据预先规定的教育 目标中期望学生变化的那种行为来设计的; 选择和编制评价的工具,要求这些工具能引 发教育目标所期望的那种行为; 分析评价结果,即依据既定的教育目标来分 析评价学生所达到的程度
闵行交流 2
2018/5/9
内容结构


当前面临的问题 量化手段及相关技术指标 量化数据结果为诊断提供必要依据 在教学管理中,有待进一步思考的问题
2018/5/9
闵行交流
3
当前面临的问题:宏观层面
问责 学生学习的改善
2018/5/9
闵行交流
4
当前面临的问题:微观层面

如何获取、利用相关学生信息,有效为诊断、 决策所用?
从量化角度浅析质量控制
主讲:王鼎
2018/5/9
闵行交流
1
感怀




只要涉及到人的事都是复杂的,包括教育质量控制,我 们的目的只是希望将复杂问题简单化,但不一定解决所 有问题. 这是一块必须用心去体会的领域,在这里我们似乎在了 解他人,但问题解决的结果往往仅仅进一步了解了自己。 当我们常常认为回答了某个问题的时候,我们却常常被 更多的问题所困。 相关技术只有通过实践才能体现其价值,否则与垃圾无 异。 我思故我在,每个学校,每个地区都有其发展的特殊性, 必须结合相应发展规律,作到个性与共性的有效结合, 平衡好“破”与“立”的关系。

计算机技术的发展提高了测验的效率
提升的测量与评价的数据采集精度,提升了评价的可监控性和有效性

教育测量、评价的社会化功能逐步增强
如何保证公平公正不仅仅是相关教育测量学界关心的问题,同时社会更加关注, 特别是对于高风险的评价。
2018/5/9
闵行交流
11
评价的参照系:回答使用什么参照来解释所得
相关信息
2
n r (1 i 1 2 ) n 1
2 i
n
2018/5/9
闵行交流
29
效度


效度:试卷的有效性简称效度,指试卷在多大程度上测 到了所要测的对象,如知识、技能、能力等。 效度分类: 内容效度:知识、技能的覆盖面、代表性及要求 程度 结构效度:能力结构的体现 效标效度:测验分数与效标的相关程度
涉及相关测验的合理使用

如何保证学科教研组长所提供的信息具有较大 的可靠性及有效性?
涉及数据的可靠性及评价的有效性

如何保证教育目标实施的连贯性及稳定性
涉及控制与反馈技术的使用
2018/5/9
闵行交流
5
量化手段及技术指标


量化相关内容:
测量、评价、测验、考试的区别与联系 评价的一般常识 测量模型使用 命题的技术控制


2018/5/9
闵行交流
25
考试蓝图
2018/5/9
闵行交流
26
技术指标:难度
对于二分法记数的试题
P 为项目难度,R 为答对该项目的人数,N 为参加测验的总人
数; 对于连续分数记分的试题
R P N
P 为项目难度, x 为该项目的平均得分,W 为该项目的满分
x P W
2018/5/9
闵行交流
如用中考的成绩与模拟中考的成绩的相关程度来检验模拟中考的有效性,中考就成了模拟 中考的效标
2018/5/9
闵行交流
30
试卷质量的核心问题:效度、信度
信度》=效度
2018/5/9
闵行交流
31
案例举例:总体情况:
4 3 2
2007初中毕业生学业水平数学测试成绩条形图
1
Percent
0 1.0 9.0 17.0 25.0 33.0 41.0 49.0 57.0 65.0 73.0 81.0 89.0 97.0 113.0 129.0 145.0 105.0 121.0 137.0
150
10.1万
相关主题