第六章测验的项目分析
• 项目鉴别指数的评价 标准(Ebel): 结合测验的目的、 功能、被试的总体水 平等,不能把区分度 作为筛选试题的绝对 标准。
第三节 项目分析的其他指标
一、关于猜测度的分析
• 关于猜测度的问题是“两派三家”:
– 一派:被试在考试中没有猜测
• 只要被试有正确作答的愿望,就必然会看题目,就 会进行信息加工,只要不是随机猜测,这样的话, 就应该鼓励大家去猜。
二、具体步骤
• • • • 分析试题内容 计算区分度 计算难度 选项分析
• 求高低分组在 所有项目, 所有项目,所 有选项上的选 答率 • 列表 • 分析:逐个项 分析: 目地进行分析
三、修改
• 题目太难,常常是诱答项的迷惑性太强, 因此要将诱答项的迷惑性降低一些;反 之,则应提高诱答项的迷惑必一。 • 迷惑项的选答率要较均匀,修改过程中 要将高的降低些,低的提高些。一般而 言,正答项的选答率在0.40左右,诱答 0.40 项的每一项的选答率在0.15-0.20左右。 • 特别要注意的是:正答项高低分组的选 答率为负差,一定要改正。可能的原因 是该答案出错了,还有可能是另有一个 正确选项,再一个可能是该题与整个测 验所测心理品质相去甚远。
这一难度定义好象 有点问题? 有点问题?
二、难度的计算
• 以全体被试得分率为难度,记为P(Pass)
二分法记分项目的难度 1、通过率 P=R/N 2、极端分组法 非二分法记分项目的难度
• 例:计算难度指数的例子:
学生 第一题 第二题 A B C D E F G H I J 满分 3 1 平均分 1.7 0.6 得分率 0.5667=1.7/3 0.6=0.6/1
– 另一派:被试在考试中有猜测
• 一家:某题的猜测度,如果是四选一的选择题,其 猜测的可能性就是1/4。所以为了防止猜测,主张倒 扣分。(倒扣与不倒扣有没有区别?) • 另一家:不能以随机的方式去估计,并不是所有被 试都会去猜,只有试题难度与被试水平差异大时, 才会猜。如果能力与试题难度相配或超超过该题难 度时,是不会去猜的。
• 计算题分与总分的相关系数 • 例:8名学生在某题上的得分及测验总分如下表, 求项目区分度。
学生 某题得分 测验总分 1 6 34 2 10 36 3 6 35 4 8 37 5 9 6 7 7 3 8 5 29
42 30 27
解:rxy = =
2 2 S x2 + S y − S D
2S x S y
国外进行DIF研究的内容
• 方法的开发。现在已有大量适用 方法的开发。 于不同背景的方法; 于不同背景的方法; • 方法的比较,以探讨各种方法的 方法的比较, 效率及优缺点, 效率及优缺点,帮助使用者选择 适用的方法; 适用的方法; • 用检测项目功能差异的方法对各 种测验的项目进行分析, 种测验的项目进行分析,确定有 功能差异的项目, 功能差异的项目,分析项目存在 功能差异的原因,形成最大可能 功能差异的原因, 原因的假设,并加以论证。 原因的假设,并加以论证。
五、项目难度分布的选择
• 常模参照测验
– 测验难度在0.50左右。
• 选拔测验
– 要求在录取线附近具有最强的鉴别能力。 – 对于选拔点左右的人而言,题应具有0.50左右的难度。
90% 10%
针对这部分考生而言,难度在 0.5左右时,有最大的区分度。
• 目标参照测验
– 关键看某学科应掌握的必备知识与能力要求是哪些。 – 一种特殊的选拔测验——选拔合格的人。
• 区分度的实质:题分与总分的一致性程度,或者 说就是它们的相关系数。 • 区分度的值域:D∈[-1,+1]
二、区分度的计算
• 计算题分与总分的相关系数 • 例:10名被试在某测验第一题上的作答情况与测 验总分如下表所示,计算该题的区分度。
学生 测验得分 第一题得分 1 0 0 2 1 1 3 2 1 4 3 1 5 6 3 5 0 1 7 6 1 8 9 6 6 1 1 10 8 1
二、DIF分析
• DIF是Differential Item Functioning的缩 小,常被译为项目功能差异; • DIF定义为:对于某个特定项目,如果在来 自同一目标特质的两批平行被试组中,显 现出不同的统计特性,那么该项目就存在 功能差异。
• 1、客观测验题中的猜测问题与 猜测率 • 2、项目难度受猜测影响的校正 • (1)猜测校正的性质与公式 • (2)猜测校正的优点 • (3)对猜测校正的争论
3 2.5 1 1
3 1.5 2 1 0 1
0 1.5 1 0 1 0
2 0.5 1 0
• 测验难度如何计算? 测验难度如何计算?
三、难度转换为等距变量
• 将得分率P转换为标准分数Z:P→Z
• 例如:P1=0.5,P2=0.6, P3=0.7的三道题的平均难度为多少? ↓ ↓ ↓ Z1=0, Z2=-0.25,Z3=-0.52 • ETS(Educational Testing Service)进上步将Z转换为 ∆(delta):∆=13+4Z
解:p = 0.8
1+ 2 + 3 + 5 + 6 + 6 + 6 + 8 = 4.625 8 0+3 q = 0.2 X q = = 1.5 2 X p − Xq 4.625 − 1.5 rpb = ⋅ p⋅q = ⋅ 0.8 × 0.2 = 0.5102 St 2.45 Xp =
二、区分度的计算(续)
第六章 测验的项目分析
第一节 项目的难度
一、难度的意义
• 难度一般是指测验项目的难度,当然也可指一个测验的难 度。后者是其所包含的所有测题难度的综合指标。我们这 里所讲的是项目的难度。 • 从心理学角度看,难度是被试在作答项目时心智操作感到 的难易程度。 • 一个测验项目,如果大多数人 能答对,则该项目的难度就小; 如果大部分人都不能答对,则 该项目的难度就大。 – 在这里,难度是题目的性质 和被试水平共同作用的结果。
DIF分析(续)
• “同一目标特质的两批平行被试组”是 同一目标特质的两批平行被试组” 指在测验打算测查的能力(目标特质) 指在测验打算测查的能力(目标特质) 两组被试具有相同的水平。 上,两组被试具有相同的水平。 • 在DIF的实际研究中,总是会人为地把被 DIF的实际研究中 的实际研究中, 试分为两组,分别称为参照组和目标组。 试分为两组,分别称为参照组和目标组。 • 划分被试依据一般有:性别、地域、民 划分被试依据一般有:性别、地域、 职业、年级、社会经济地位等。 族、职业、年级、社会经济地位等。 • 衡量参照组与目标组的被试是否具有相 同能力水平的变量就称为匹配变量。 同能力水平的变量就称为匹配变量。
4.4375 + 20.9375 − 10 2 × 2.1065 × 4.5758 =0.7975
二、区分度的计算(续)
• 项目鉴别指数 D = PH − PL
– 该方法是采用极端分组法求项目区分度
• 采用该方法的原因:
– 简单,易理解 – 不同相关计算方法的结果不可直接比较,本 方法在各种条件下都可用。 – 不足:丢失了一部分信息。Βιβλιοθήκη 四、测验项目难度对测验的影响
• 艾伯尔(Ebel)等测量学专家的实验: – 自编三份试卷,难度分布不一样:
• 卷一:两极端式(没有中间难度的题目) • 卷二:均匀分布(各种难度的题目个数差不多) • 卷三:在0.50左右(所有题目都是中等难度)
– 测验结果: • 结论:
– 项目难度的分布会影响 测验分数的分布形态 – 项目难度分布会影响测 验分数的离散程度 – 项目难度会影响测验的 信度 – 项目难度分布会影响测 验项目的区分度
第二节 项目的区分度
一、区分度的意义
• 定义:指测验项目对被试心理品质水平差异的区 分能力,记为“D”。 • 意义:测验目的就是将被试的水平加以区别,项 目应为这一目的作贡献。区分度就是针对这种功 能的度量指标。 • 区分度高低的标准:
– 客观的标准。(只有被试水平高低清楚了,才能判定 项目是否区分对了。) – 测验的总分。以总分作标准,有利于增强测验项目间 的同质性,从而有利于提高整个测验的信度。同时, 也说明每个项目应为测验目的作贡献,如果不一致, 就说明该题与测验目标不一致。
三、区分度对测验的影响
• 区分度对测验总分方差的影 响
– 经验公式:2
σX =
(∑ D)2 6
• 区分度对测验信度的影响
– Ebel的研究:假设一份试卷所 有项目的难度都是0.50的话, 那么所有项目的区分度的平均 数与信度有一个关系:
四、影响区分度高低的因素
• 试题的难度 • 项目间的同质性 • 项目的文字质量
第四节 多重选择题的项目分析
一、分析的作用与内容
• --对该题进行品质分析,看其是否能测到你想测的那 种心理品质。 • --计算该题的区分度,看区分度能否达到要求。 • --看该题的难度是否合适、恰当。 *--正答选项的选答率是否恰当。正答选项 在高、低分组的选答率是否是正差,差距 是否足够大。(理论上是越大越好) *--诱答选项(迷惑项或分心因子)的选答 率是否恰当,诱答选项在高低分组上的选 答率是否是负差,差距是否足够大。
五、影响区分度计算的因素
• 不同计算方法,结果不同
– 比较不同项目的区分度,要采用相同 的方法
• 样本容量不同会影响区分度的计算
– 容量太小,估计值不稳定
• 极端组的比例
– 常用的为27%,也有人用30%或25%
• 被试样本的同质性程度
六、区分度的相对性
• 1、不同的计算方法,所得区分值 不同 • 2、样本容量大小影响相关法区分 度值的大小 • 3、分组标准影响鉴别指数值 • 4、被试样本的同质性程度影响区 分度值的大小