与试题编制相关的概念----难度系数、区分度、信度与效度教研之窗2008-03-14 11:25:00 阅读21 评论0 字号:大中小订阅一、试题的难度:试题的难度指的是试题的难易程度。
试卷的难度指的是试题的平均难度。
难度系数计算方法:1、客观试题难度系数计算方法(二分法计分题目的难度):P=R/N,其中P为难度系数,R为答对人数,N为总人数。
2、主观性试题的难度系数计算方法(非二分法计分题目的难度):难度系数=平均分/总分。
中考试题平均难度系数:0.55~0.60之间,不能超过0.79。
二、试题的区分度:试题的区分度是指题目对考生实际水平的区分程度。
区分度高的题目,能够较好地区分学生的实际水平。
在这样的题目上,能力高的学生得高分,能力低的学生得低分。
区分度低的题目,不同能力的学生得分差别不大。
如果在某些题目上,能力高的学生得低分,能力低的学生得高分,那么这样的题目非但没有区分度,反而干扰了整个试卷的有效性和可靠性。
区分度主要用与评价以选择为目的的试题。
用于评价学业成就的试题则无需考虑区分度,即使区分度很低,只要教育者认为是重要的内容也可以选用。
对于学业考试,并不是所有的题都要求有区分度。
需要对学生能力鉴别的题目才需要有区分度。
鉴别率指数:鉴别率指数是高分组的通过率与低分组的通过率的差值。
D值越高,区分度越大。
-1≤D≤1,当D=1时,说明高分组的同学100%通过,低分组的同学通过率为0.当D=0时,高分组好低分组的学生通过率相同,试题没有区分度。
一般情况下,试题的区分度D值大于0.3时,题目可以接受了。
高低分数组的划分:一般情况下,根据试卷总分将考生排队,从高分端好低分端分别取27%的考生组成高分组好低分组,其余46%的考生不作分析。
当样本团体过小时,划分的比例可以适当提高。
三. 信度是指其可信度,既是在多大程度上是正确的,效度是指能够多有效的表示所需表达的含义。
以一份量表(测量智力,记忆力之类的标准化试卷)为例,其信度就是指同一个人在几次参加同一份试卷的考试(假设此人并未有改变)分数不会有大的差异,而效度是指这份试卷能够多大程度测量你的智力水平。
信度指的是测量结果的稳定性和可靠性。
由于一个人的知识和能力水平是相对稳定的,在相当一段时间内不会发生太大的变化,所以一份试卷若能够真实反映学生的知识和能力水平的话,那么考试结果也应该是稳定的。
信度高的试卷就好比一把尺子,只要操作方法得当,无论何时、何人去测量同一张桌子的高度,所得到的结果应该是基本一致的。
如果所用的是一种具有较大弹性的皮尺,则不同的人或同一个人在不同的时候去测同一张桌子的高度,其结果会有较大的差异。
所以,为避免试卷中出现此类误差,必须检验其信度。
四、效度试题的难度系数与区分度分析教研之窗2010-11-26 22:05:04 阅读35 评论1 字号:大中小订阅一、试题的难度分析:难度系数(P)=该题平均分/该题满分,P值越大,题目越容易,难度越低。
当考生的人数较多时,可以根据时间的总分分成三组:分数最高的27%为高分组,分数最低的27%为低分组,中间的46%为中间组。
例如:某同学想用一只开关控制两只灯泡,要求开关闭合时,只有一只灯泡发光,断开开关时两只灯泡均发光,则下面的电路图正确的是(B)组别各选项选择百分数(%)A B C D总体7 80 2 11高分组0 100 0 0低分组7 57 4 32该组有80%的人通过,表明这道题目偏容易(难度系数为0.8),选项分析的结果表明,对正确选项B,高分组的选择率为100%,低分组的选择率与高分组有一定的差距;而且对D 选项,高分组每人选,而低分组有32%的人选择,说明D选项对低分组的学生很有迷惑性,对高分组不具有迷惑性。
总体来看,该题是可以接受的,如果能对C选项进行适当的修改提高试题的迷惑性的话,该题更有效。
二、试题的区分度:主要用于评价以选拔为目的的考题。
鉴别力指数:D=高分组通过率(PH)-低分组通过率(PL)。
D值越高,题目越有效。
鉴别力指数高于0.4以上区分度很好,0.3~0.39良好。
0.2~0.29,尚可,须改进。
小于0.2区分度很差。
下面的例子说明如何对题目进行区分度分析:按照提示,填出课文原文:1、开发大西北,我们实施了退耕还林、退耕还草的绿色生态战略。
可以料想,不久的将来,古人吟唱的“_____,______,_____________”的良好生态环境必将在大西北重现。
(用《敕勒歌》中词句填写)2、美国大唱所谓的“人权”,其实是_______________,目的在于干涉他国内政。
(用《醉翁亭记》中的一句话填写)区分度结果分析上面两个小题的区分度(鉴别力指数)都达到了非常优良的水平,能够很好地对不同能力的考生进行区分。
难度与区分度、信度、效度浏览量:15277 发表日期: 2008-3-7 来自: 市教育局办公室【字体:大中小】平均分(mean)表示考试分数的集中趋势的一种统计量,也是教育测量中使用最为广泛的一种统计指标。
平均分一般计算公式:(公式01)式中,为平均分;为学生I的考试分数;N为参加考试的学生数。
平均分的基本作用在于它可以作为一组分数的典型代表,其代表性优于中数、众数。
平均分数具有下列基本性质:平均分是由全部分数求出的。
●每个分数与平均分的离差之和等于零,说明平均分数是各个分数的中心。
●当分数分布呈正态时,平均分位于分布曲线的中点并和曲线的最高点相对应。
●各个分数与平均分数的离差的平方和比各个分数与其他任何集中量数的离差的平方和都小。
难度(difficulty)难度与区分度、信度、效度并称为“考试四度”,是控制考试质量的一个重要指标,也是试卷编制中特别关注的一个要素。
难度又有试题难度和考试难度之分,前者是反映题目难易程度的量化指标,有时也称作试题难度系数,通常用该题目的答对率或平均得分率表示,而后者则是所有试题难易的综合反映,在考试分数控制、成绩解释上更为重要。
●试题难度试题难度值与试题实际难易程度正好相反,越大表示试题越容易,而难度制越小则试题越难。
试题越难(试题难度值越小),说明能够正确解答该题的学生越少,或该题的得分越低。
主观题(答对得分、答错不得分)的试题难度用答对题目的人数与参加考试总人数的比值表示:(公式02)式中:为i试题难度,为答对该题人数,为总人数。
而试题使用连续分数计分时,试题难度则用参加考试的全体学生在该题的平均得分与该题满分的比值表示:(公式03)式中:为i试题难度,为该题平均得分,为该题满分值。
在试卷编制中,不同难度的试题在考试中扮演着不同的角色,不同难度试题的组和不但直接影响试卷难度和平均分数,进而影响对考生成绩的解释,还对成绩分布具有重要影响,从而影响考试深层的质量特性。
为了确保每一道试题在考试中发挥应有的作用,一般将试题难度值控制在一定的范围内,通常是在0.50.2之间。
考试难度又称试卷平均难度或加权试卷平均难度,其计算公式:(公式04)式中:P为考试难度,为i题的加权系数,为i题的试题难度。
因为, ,可以证明:(公式05)因此,计算考试平均分数后,可以通过上式方便地算出考试难度。
标准差(standard)它是描述一组分数离散情况的最常用、最可靠的统计量数,标准查核平均分一样,也是计算其他统计量数时常用的基本数据之一。
计算公式:(公式06)式中各符号与公式01意义相同。
利用标准差对试题质量进行初步评价时,主要是看学生考试分数的离散情况是否与学生以往学习成绩的实际分布一致。
如果学生学习成绩比较整齐,考试结果分数分布应相对集中,此时分数的标准差较小才符合学生的实际情况;相反,如果学生成绩参差不齐,考试分数的标准差较大才符合学生的实际情况。
只有当标准差表明的考试分数的离散情况与被测学生群体的实际情况一致时,试题质量才有可能是合格的。
区分度(discrimination)测量理论对考试的区分度十分重视,称之为判断考试是否有效的指示器,并作为评价试题质量、对试题进行筛选的主要依据。
●区分度概念指考试对学业水平不同的学生区分程度或鉴别能力。
某一道试题在学业水平、实际能力较高的学生都能答对,而学业水平、实际能力较低的学生都答错,则认为该题目有好的区分度(试题区分度)。
具有良好区分度的试题组成的试卷,实际水平高的学生应该能够获得较好的成绩,实际水平低的学生应该不能通过获得分较低。
研究发现:当考试是以选拔为主要目的时,具备良好的区分度的考试才会满足考试效度要求;考试的信度随考试区分度的提高而增加,且前者的增加速率更快;试题的难度与区分度关系密切,在难度接近于0.5时,区分度量值接近最大,但区分度相同的考试其难度值可能不同。
在编制是卷时,难度小的试题主要区分低分组学生,难度大的试题区分高分组学生,为适应对全部参考学生都能区分,需要对试卷中全部试题的难度、区分度做综合考虑。
试题区分度与试题难度一样,属于试题库建设题目优化的控制指标,本文仅提及而不做讨论。
●区分度计算最常用的计算方法是极端分组法,该方法计算简单,适合一般考试的总体区分度分析。
该方法是通过比较两个极端效标组(高分组和低分组)的差异来估计试题区分度的。
计算如下:(公式07)式中,为区分度,和分别为高分组、低分组学生的平均得分,M为该次考的满分值。
高分组和低分组的划分是将考试学生的成绩由高到低的顺序依次排序,然后取其上端一部分为高分组,取其下端一部分为低分组。
对于极端分组的人数应占全部被测学生多大比例要视成绩分布的具体情况而定,如果考试成绩分布符合正态分布,则高分组和低分组最佳比例均为27%;如果考试成绩分布较平坦则比例应略高于27%;反之比例可低一些;一般情况下,其比例值介于25%—33%之间。
●测量结果的评价使用上述算法,通常考试区分度数值应大于0.2。
考试信度(reliability)评价考试结果的稳定性是用考试信度(或测验信度)估计的。
由于任何考试结果都因考试误差的客观存在而受到或多或少的影响,因此百分之百可信的考试几乎无法得到。
考试信度就是推测考试可信与否的最重要量化指标。
实际测量中多采用分半信度和同质性信度两种算法。
●分半信度采用分半法(split-half reliability)考试信度是将考试施测于某被试总体,然后将考试分半,再求被试在每一半考试上的分数的一致性程度。
具体方法是将奇数题组成一个部分,偶数题构成奇数题的复本。
计算两半考试得分的皮尔逊相关系数(Pearson’s product moment correlation)(公式08),再采用Spearman-brown公式(公式09)矫正。
(公式08)(公式09)为皮尔逊相关系数(又称为分半信度),为矫正后的信度估计值,为配对后某对奇数题、偶数题得分值,为成对试题数目。