第三章误差及其检验
四、 信度评估的方法
重测信度
复本信度
信度 内部一致性 信度 评分者信度 分半信度 同质性信度
(一)重测信度(Test-retest reliability)
含义 同一测验 同组对象 前后测2次 相关系数 程序 误差
A卷
一 定 时 距 太短 练习效应 记忆效应
时间
太长 身心变化
稳定 性
A卷
使用条件
重测
复本 内部一致性:分半、同质性 评分者
测验条件、样本性质及估计方法不同,信度不同.
几点说明
1.有多少种误差,就有多少种估计信度的方法. 2.上面介绍的各种计算方法仅适用于常模参照测验. 3.标准参照测验的信度问题必须以概化理论为依据. 4.不同类型的测验,信度的要求是不一样的. 5.用不同方法估计的信度也会有所差异.
小结
理论假设: X=T+E; S² X = S² T +S² E 信度:测量结果的稳定性(一致性)程度. 类型
3、误差的来源
三层面模式
测量 工具
测试对象
施测 过程
1.测验题目取样不当
测 量 工 具
2.测验题目格式不妥 3.测题的难度不当 4.测题或指导语用语不当
5.测验时限过短
......
施
测 试 环 境
测 试 时 间
测
主 试 因 素
过
程
意 外 干 扰 评 分 记 分
测
应 试 动 机 测 验 焦 虑
2、误差的种类
系统误差
随机误差
随机误差与系统误差的比较
类型 产生原因 特点 方向和大小上 完全随机 效能
影响 一致 性 不影 响一 致性
指 标
信 度 效 度
随机 不易控制的 误差 偶然因素
影 响 准 系统 恒定、有规 稳定地存在于每 确 性 次测量中 误差 律的因素
操作演练
假设对100个六年级学生以两个月的时间间隔先 后施测一个创造力测验的A/B两个复本,所得的 等值与稳定性系数为0.70。 我们还根据被试对每个复本的反应计算出分半信 度为0.80. 同时,我们将另一个评分者随机抽取50份卷子另 外评分,得到评分者信度为0.92。 然后,我们对这这三种方法所产生的误差变异进 行分析。
注:第一条假设在于说明E是服从均值 为零的正态分布的随机误差;第二、 三条假设意在说明E是个随机误差,没 有包含系统误差。
理解如下:
1、在问题研究范围内,反映心理特质水平的真分数是不变 的,测量的任务就是估计这一真分数的大小; 2、观察分数被假定等于真分数与误差之和,而且观察分 数与真分数是一种线性关系; 3、测量误差是完全随机的,并服从均值为零的正态分布。 且独立于所测特质以外的任何变量。 4、对于一个团体来说,实得分数、真分数和测量误差之 间有如下关系:
二、信度的定义
信度指的是测量结果的稳定性程度(或一致性程度)。
真分数方差与观测分数方差的比值
rXX
S S
2 T 2 X
信度是反映测量中随机误差大小的指标。
三、信度的应用
1、评价测验(随机误差的大小)
2、解释测验分数的意义
(1)解释个人测验分数的意义
SE S X 1 RXX
(X-1.96SE)﹤T≤(X+1.96SE)(95%的概率水平)
跨形式 一致性
(三)内部一致性信度
含义 测验 各题间 一致性
题目 一致 性
同质性 信度
类型
分半 信度
1、分半信度(Split-half raliablity)
奇偶题 分半
难易:低高 两半相似: M、S 项目组间相关 分布常态
两半相关:rhh 校 正:rnn
校正方法
斯皮尔曼 -布朗公式 弗拉南根公式 卢尤公式
基本假设与真分数
1、真分数
测验所得 未加工
理论定义 真正特质水平
操作定义 无数次测量结果的均值
经典测验理论(CTT)假定:
观察分数(X)与真分数(T)之间 是一种线性关系,并只相差一个随机误差 (E)。 即: X=T+E
关于测量误差还有如下假设:
1、如果对一个人的某种心理特质用平行测验测量无数次, 则其观察分数的平均值会接近于真分数。 2、 误差分数与真分数相互独立,相关为0。 3、各平行测验上的误差分数之间相关为零。
含义 评分者评分的一致性
方法
2评分者
rXY
2个以上者 肯德尔和谐系数
各种信度系数相应误差变异的来源
信度系数的类型
再测信度 复本信度(连续施测) 复本信度(间隔施测) 分半信度 同质性信度 评分者信度
误差变异的来源
时间取样 内容取样 时间与内容取样 内容取样 内容的一致性 评分者间的差异
友情提示
实际上,有多少种误差的来源,就有多少 种信度估计的方法。一般来说,一个测验 哪种误差大,就应该用哪种误差估计。有 时一个测验需要几种信度估计。
rnn 1 rXX k rXX 1 rnn
RXX为原测验的信度. RNN为测验长度增加后测验的信度. K为改变后的测验长度与原来长度之比.
例2-16:某测验有40题,信度0.65, 若增至120题,信度会是多少?
rnn 0.85
例2-17:某测验有30题,信度0.75, 试问要达到多少题才能使信度达到0.90?
第一,所测的心理特性必须是稳定的。 第二,遗忘和练习的效果基本上相互抵消。 第三,所测心理特质在两次施测的间隔时间内 没有获得更多的学习和训练。 第四,报告结果时要报告两次测验的间隔及有 关经历.
评价
优点 省力、省时 测量属性相同 提供随时间变化的资料 不足
时间间隔长短
★ 时间间隔越长,重测信度越低;
(三)测验难度
一般趋势
测验太难或太易,分数范围缩小,降低信度.
难度与题型
简答题:P=0.5时,X为0~100,信度最高。 学绩测验选择题的理想平均难度(洛德) 五择一:0.70 四择一:0.74 三择一:0.77 是非题:0.85
(四)时间间隔 智力的时间变化
间隔期 信度系数
一个假想测验的变异数分析
信度类型 误差变异数 误差变异来源 时间和内容取样
复本信度(间隔) 1-0.70=0.30
分半信度 上述两者差异 评分者信度
误差变异总和 真实变异
1-0.80=0.20
内容取样
0.30-0.20=0.10 时间取样 1-0.92=0.08 评分者差异
0.20+0.10+0.08=0.38 1-0.38=0.62
试
测 验 经 验
对
练 习 效 应
象
反 应 倾 向 生 理 变 因
经典测验理论 信度概念 信度的评估方法
信度系数的应用
影响信度的因素
一、经典测验理论
成熟 标志 20世纪50年代 Gulliksen 《心理测验理论》 三大 支柱 基本假设 信度 效度
考研题
Classical Test Theory(CTT)
考研题
五、影响信度的因素
测验长度
样本特征
测验难度
时间间隔
(一)测验长度
含义
测验试题的数量
特点
测验越长,试题取样越具有代表性。 测验越长,猜测因素影响就越小。 增加测验长度的效果应遵循报酬递减率原则。
长度与信度的关系
krXX rnn 1 k 1rXX
k 3, n 90
(二)样本特征
1、样本团体异质性的影响
特点
样本越异质,分数分布越广,有可能高估信度。 样本不同,信度就有可能不同 。
2、样本团体平均能力水平的影响
特点:
团体平均水平太高或太低,分布变窄,可能低估信度.
选择测验时应注意
取样团体的变异性和能力水平 建立信度的团体与欲测团体是否一致
方差相等时
方差不等时
使用条件
测验只能施测一次或没有复本的情况下使用. 当一个测验无法分成对等的两半时不宜使用.
2、同质信度(Homogeneity raliability)
同质性 题目间的内部一致性
克龙巴赫 系数
各类 题型
类型
库-理信度
二值 记分
(四)评分者信度(Scorer raliability)
0.80-0.85
非标准化测验
0.60-0.85
信度评价的一般原则 RXX ﹤0.70:不可靠,不能用; 0.70≦RXX ﹤0.85:可用于团体; RXX≧0.85:可用于鉴别个人.
几种典型测验的信度系数
测验类型 成套成就测验 学术能力测验 成套倾向性测验 客观人格测验 兴趣问卷 态度量表 低 .66 .56 .26 .46 .42 .47 中 .92 .90 .88 .85 .84 .79 高 .98 .97 .96 .97 .93 .98
等值 性
程序
误差 内容 取样
A卷
最 短 时 距
B卷
复本等值的条件
● 各测验测量的是同一种心理特质;
● 各测验具有相同的内容和形式;
● 各测验的题目不应重复;
● 各测验题目数量相等;各测验难度和区分度大体相同; ● 各测验的分数分布(标准差和平均数)大体相同;
● 复本编制好后,应再测一次,以确保等值。
(2)两种测验分数的比较(差异的标准误)
2 SEd SE12 SE2
SEd S 2 rxx ryy
所得结果与1.96SE(0.05水平)进行比较,即可得出两个测验的差异是否显著.
3、确定信度的可接受水平