5-信度
霍伊特(C.Hoyt)信度
• 霍伊特(C.Hoyt)信度的主要原理就是把一组测验分数的总方差分 解成三个来源:人与人的差异;项目之间的差异;以及人与项目之间 相互作用的差异。真正方差用人与人的差异,ቤተ መጻሕፍቲ ባይዱSp来估计,测量误差 则用人与项目的相互作用与项目的相互作用MSr.来估计。计算公式 为:
MSP MSr MSr 1 MSP MSP
克伦巴赫(L. J. Cronbach)α系数
这是应用最广的一种信度指标 公式:
2 2 s s n t i 2 st n 1
式中Si2为各部分测验分数的方差,St2为测验总方 差。当将每一个测题作为一个分析单元时,n便是测 验的题目总数。而当n=2时,即将测验分半时,不难 证明此公式与分半信度的矫正公式相同。
测验的信度概述
3
其中,ST2是实测分数的方差,反映实测分数的的波动 程度; STR2是真分数的方差,反映真分数的波动程度; SE2是误差分数的方差,反映误差分数的波动程度。 SE2 和STR2对于rtt的大小的贡献可由下图表示:
STR2
SE2
可见误差变异数越大,信度系数越小,信度越低,误差变异 数越小,信度越高。
测量工具方面
•以测验为代表的心理与教育测量工具是否性 能稳定是测量工作成败的关键。因此,弄清楚 影响测量工具稳定性的因素是十分重要的。一 般地,试题的取样、试题之间的同质性程度、 试题的难度等是影响测验稳定性的主要因素。
试题的取样
试题的取样 如果一个测验的试题取样不当(或题目数目太少,或考察的方面不全 面),则难以测查到被试心理特质的全面情况。若是被试采取押题方 式应考,则所得结果的随机性更大。既然心理特质被考察的方面是随 机的、测查的结果也是随机的,那么这种测量的信度就必然不高。 相反,当一份测验中的同质性的题目数量增多之后,同一心理特质被 考察到的次数就会增多,被试的成绩也就被有效地拉开。整个团体的 测验分数分布就会更广,从而,提高测量的信度。
内在一致性信度
也叫同质性信度。该系数反映的是测验内部的一致性,即
项目同质性。当被试在同一测验里出跨项目的一致性时,就称测 验具有项目同质性。也就是测验里各测题得分为正相关时,就可 以从一个人在一个测验题上的作业预测其在其他测题上的作业。 内在一致性系数不可避免地受到测试时被试成绩的临时波动 、猜测、记分等测量误差的影响,除此之外上,测验内容抽样引 起的误差对其也会产生影响,而后者更是研究内在一致性系数所 需重视的误差来源。
n
r xy
n
( x i x )( y i y )
n
i1 2
( yi y)
2
nS
x
xy S
y
i1
(xi x) y S y
i1
1 n
x S x
1 n
Z
x
Z
y
与信度系数有关的误差方差来源
信度系数类型
•
分半信度
误差来源:误差来源主要在于分半过程,以不同的方式对 测验进行分半所得的分半信度值不同。但它基本避免了再 测法和复本法的误差源及不可行性。 斯-布公式要求前后两半题目有相同的变异(方差),方 差不同时,则会高估信度系数。
rxx
2 rx1 x2 1 rx1 x2
分半信度的矫正公式
(2)费拉南根公式:
• •
主试方面
• 就施测者而言,若他不按指导手册规定施测,或故意制 造紧张气氛,或给考生一定的暗示、协助等,则测量信 度会大大降低。 • 就阅卷评分者而言,若评分标准掌握不一,或前紧后 松,甚至是随心所欲,则也会降低测量信度。
施测情境方面
• 在实施测验时,考场是否安静,光线和通风情况是否 良好,所需设备是否齐备,桌面是否合乎要求、空间阔 窄是否恰当等等都可能影响到测量的信度。
•由于这种方法的计算较之其他方法复杂的多,因而现在不常用,但是 其运用方差分析估计信度的思想为现代测量理论之一的概化理论的诞 生奠定了一定的基础。
评分者信度
• 含义:评分者信度(Scorer reliability)指的是多个评分者 给同一批人的答卷进行评分的一致性程度。 • 计算:当评价者人数为2时,评分者信度等于评分者给同一 批被试的答卷所给分数的相关系数(积差相关或等级相关)。 当评分者人数多于两个人时评价者信度可以用肯德尔和谐系数 计算。公式分别为:
• 定义:复本信度又称等值系数,是指两假定相
等的复份测验之间的一致性,是两个平等测验分 数的相关。(当同一测验不能用来再次实施时, 就需要给同一种测验编制两份平等的测验) • 计算方法:先实施测验的复份A,然后在最短的 时距内实施复份B,再求再次测验分数的相关系 数。 •
图式:
最短时距
测验复份A
测验复份B
内在一致性信度
估计内在一致性系数的方法通常有两类, 一类是分半法, 另外一类方法需要对项目反应的方差或协方差进 行分析。
分半信度 split-half reliability
定义:将测验施测于某被试总体,然后将测验分半,再求被试在每一半 测验上的分数的一致性程度。这是最常用的信度指标 • 分半方法:完全随机分半法;奇偶分半法;将测验分成若干内容 块,再将各内容块的题目奇偶分半,所有的奇数题和所有的偶数题 各组成一个分测验。这是最有效也是应用最广泛的分半方法。 计算方法:若测验分半后得到的两个部分符合平等测量的条件,即 符合真分数等值模型的假定,则可计算两半测验得分的皮尔逊相关 系数。但所求得的相关系数只能代表半个测验而不是整个测验的信 度,因而应对此系数进行矫正。一般用著名的斯皮尔曼-布朗公 式。
试题的取样
例如,有一个测验,由5道是非题组成。如果学生知道其 中4题的正确答案,那么猜对另外1题的概率为0.5,凭猜 测获得分数的可能性就很大。但是,另有一个测验,由50 道是非题组成。如果学生知道其中40题的正确答案,那么 猜对另外10题的概率为0.5的10次方,凭猜测获得分数的 可能性就很小。
估计信度的方法
• • • •
重测信度 复本信度 内在一致性信度 评分者信度
重测信度 test-retest reliability
重测信度也称稳定系数,是指对同一 被试总体进行重复测量而得的两组数据之间的 一致性程度的量化指标。用两次测验分数之间 的相关系数表示。 • 计算方法
rtt rx1x 2
重测信度 复本信度 等值稳定系数 分半信度 库德系数和α系数 评分者信度
误差方差来源
时间抽样 内容抽样 时间和内容抽样 内容抽样 内容抽样和内容异质性 评分者之间的差异
评价测验
一般能力测验和成就测验信度在0.90以上 人格和兴趣测验信度在0.80和0.85之间 信度系数高于0.85时,可以对个体进行诊断、鉴别、解释 ,也可以进行团体比较 信度在0.70到0.85之间时,只能进行团体比较 信度小于0.70时,不能评价个人,也不能进行团体比较 根据测验目的,有些信度不高的测验也有用 信度一般指某次测验结果的信度,不能根据一两次测验的 结果否定测验的价值
被试方面
• • • 就被试团体而言,整个团体内部水平的离散程度以及团体的平均水平 都会影响测量信度。 这是因为,我们所计算的信度估计值大都是以相关为基础的,而相关 系数的大小往往取决于全体被试得分的分布情况。 当被试团体异质(即团体内水平彼此差异大)时,全体被试的总体分 布必然较广,以相关为基础计算的信度值必然会大,这就很有可能高 估实际的信度值。 当团体内部水平相差不大(同质)时,其得分分布必定会较窄,以相 关为基础计算的信度值必然会小。这时又有可能低估信度值。 此外,若团体的平均水平太高(大家都得高分)或太低(大家都得低 分),同样会使测验人总分的分布变窄,低估测量的真正信度。
2
其中,sd2是两个分半测验分数 之差的方差,st2是整个测验的总 分方差。
公式(1)和(2)不要求两个分半测验的变异相等
基于项目协方差的方法
把测验划分为两半的方法实际上有多种,除了奇偶法以外, 还有随机安置法、内容匹配法、难度排序奇偶法等等。而每一种 划分方法产生的rtt估计值都有差别,因此,用分半法得到的信度 估计值不具备唯一性。所以库德(Kuder)、理查德逊( Richardson)针对分半法的不足提出的。不过,与斯皮尔曼-布 朗方法的假设相似,库德-理查德逊方法也要求测题的难度相等 ,相关相等。
信度的相关问题
• 影响信度的因素 • 提高测量信度的常用方法 • 几点说明
影响测量信度的主要因素
• 被试方面 • 主试方面 • 施测情境方面 • 测量工具方面 • 两次施测的间隔时间
被试方面
• 就单个被试而言,被试的身心健康状况、 动机、注意力、耐心、求胜心、作答态度 等,会影响测量误差,因为这些因素往往 会影响被试心理特质水平的稳定性。
2 2 sa sb rtt 2 1 s 2 t
式中sa2,sb2分别为两个分半测验 的方差,st2为整个测验的总分 方差。
nr s 11 d rnn r tt 1 1 (n 1)r11 st2
2
(3)卢龙公式(Rulon)
sd rtt 1 2 st
• 定义
X X X X / n X ( X ) / n X ( X )
1 2 1 2 2 1 2 1 2 2 2
2
/n
X1 X 2 n X 1 X 2 rtt (n 1)1 2
X1X2 / n X1 X 2 rtt S1S2
复本信度 alternate form reliability
试题的取样
这种效果可用斯皮尔曼-布朗公式计算。 公式中,n为改变后的测验长度与原来长度 之比。r11为原测验信度,rnn为测验长度增 加n倍后的测验的信度。