当前位置：文档之家› 第三章误差及其检验

第三章误差及其检验

四、信度评估的方法
重测信度
复本信度
信度内部一致性信度评分者信度分半信度同质性信度
（一）重测信度（Test-retest reliability）
含义同一测验同组对象前后测2次相关系数程序误差
A卷
一定时距太短练习效应记忆效应
时间
太长身心变化
稳定性
A卷
使用条件
重测
复本内部一致性：分半、同质性评分者
测验条件、样本性质及估计方法不同,信度不同.
几点说明
1.有多少种误差,就有多少种估计信度的方法. 2.上面介绍的各种计算方法仅适用于常模参照测验. 3.标准参照测验的信度问题必须以概化理论为依据. 4.不同类型的测验，信度的要求是不一样的. 5.用不同方法估计的信度也会有所差异.
小结
理论假设： X=T＋E； S² X = S² T ＋S² E 信度：测量结果的稳定性(一致性)程度. 类型
3、误差的来源
三层面模式
测量工具
测试对象
施测过程
1．测验题目取样不当
测量工具
２．测验题目格式不妥 3．测题的难度不当 4．测题或指导语用语不当
5．测验时限过短
．．．．．．
施
测试环境
测试时间
测
主试因素
过
程
意外干扰评分记分
测
应试动机测验焦虑
2、误差的种类
系统误差

随机误差

随机误差与系统误差的比较
类型产生原因特点方向和大小上完全随机效能
影响一致性不影响一致性
指标
信度效度
随机不易控制的误差偶然因素
影响准系统恒定、有规稳定地存在于每确性次测量中误差律的因素
操作演练
假设对100个六年级学生以两个月的时间间隔先后施测一个创造力测验的A/B两个复本，所得的等值与稳定性系数为0.70。我们还根据被试对每个复本的反应计算出分半信度为0.80. 同时,我们将另一个评分者随机抽取50份卷子另外评分，得到评分者信度为0.92。然后，我们对这这三种方法所产生的误差变异进行分析。
注：第一条假设在于说明E是服从均值为零的正态分布的随机误差；第二、三条假设意在说明E是个随机误差，没有包含系统误差。
理解如下：
1、在问题研究范围内，反映心理特质水平的真分数是不变的，测量的任务就是估计这一真分数的大小； 2、观察分数被假定等于真分数与误差之和，而且观察分数与真分数是一种线性关系； 3、测量误差是完全随机的，并服从均值为零的正态分布。且独立于所测特质以外的任何变量。 4、对于一个团体来说，实得分数、真分数和测量误差之间有如下关系：
二、信度的定义
信度指的是测量结果的稳定性程度（或一致性程度）。
真分数方差与观测分数方差的比值
rXX
S S
2 T 2 X
信度是反映测量中随机误差大小的指标。
三、信度的应用
1、评价测验（随机误差的大小）
2、解释测验分数的意义
（1）解释个人测验分数的意义
SE S X 1 RXX
（X-1.96SE）﹤T≤（X+1.96SE）（95%的概率水平）
跨形式一致性
（三）内部一致性信度
含义测验各题间一致性
题目一致性
同质性信度
类型
分半信度
1、分半信度（Split-half raliablity）
奇偶题分半
难易：低高两半相似： M、S 项目组间相关分布常态
两半相关：rhh 校正：rnn
校正方法
斯皮尔曼 -布朗公式弗拉南根公式卢尤公式
基本假设与真分数
1、真分数
测验所得未加工
理论定义真正特质水平
操作定义无数次测量结果的均值
经典测验理论（CTT）假定：
观察分数（X）与真分数（T）之间是一种线性关系，并只相差一个随机误差（E）。即： X=T＋E
关于测量误差还有如下假设：
1、如果对一个人的某种心理特质用平行测验测量无数次，则其观察分数的平均值会接近于真分数。 2、误差分数与真分数相互独立，相关为0。 3、各平行测验上的误差分数之间相关为零。
含义评分者评分的一致性
方法
2评分者
rXY
2个以上者肯德尔和谐系数
各种信度系数相应误差变异的来源
信度系数的类型
再测信度复本信度（连续施测）复本信度（间隔施测）分半信度同质性信度评分者信度
误差变异的来源
时间取样内容取样时间与内容取样内容取样内容的一致性评分者间的差异
友情提示
实际上，有多少种误差的来源，就有多少种信度估计的方法。一般来说，一个测验哪种误差大，就应该用哪种误差估计。有时一个测验需要几种信度估计。
rnn 1 rXX k rXX 1 rnn
RXX为原测验的信度. RNN为测验长度增加后测验的信度. K为改变后的测验长度与原来长度之比.
例2-16：某测验有40题，信度0.65，若增至120题，信度会是多少？
rnn 0.85
例2-17：某测验有30题，信度0.75，试问要达到多少题才能使信度达到0.90？
第一，所测的心理特性必须是稳定的。第二，遗忘和练习的效果基本上相互抵消。第三，所测心理特质在两次施测的间隔时间内没有获得更多的学习和训练。第四,报告结果时要报告两次测验的间隔及有关经历.
评价
优点省力、省时测量属性相同提供随时间变化的资料不足
时间间隔长短
★ 时间间隔越长，重测信度越低；
（三）测验难度
一般趋势
测验太难或太易,分数范围缩小,降低信度.
难度与题型
简答题：P=0.5时，X为0～100，信度最高。学绩测验选择题的理想平均难度（洛德）五择一：0.70 四择一：0.74 三择一：0.77 是非题：0.85
（四）时间间隔智力的时间变化
间隔期信度系数
一个假想测验的变异数分析
信度类型误差变异数误差变异来源时间和内容取样
复本信度(间隔) 1-0.70=0.30
分半信度上述两者差异评分者信度
误差变异总和真实变异
1-0.80=0.20
内容取样
0.30-0.20=0.10 时间取样 1-0.92=0.08 评分者差异
0.20+0.10+0.08=0.38 1-0.38=0.62
试
测验经验
对
练习效应
象
反应倾向生理变因
经典测验理论信度概念信度的评估方法
信度系数的应用
影响信度的因素
一、经典测验理论
成熟标志 20世纪50年代 Gulliksen 《心理测验理论》三大支柱基本假设信度效度
考研题
Classical Test Theory（CTT）
考研题
五、影响信度的因素
测验长度
样本特征
测验难度
时间间隔
（一）测验长度
含义
测验试题的数量
特点

测验越长，试题取样越具有代表性。测验越长，猜测因素影响就越小。增加测验长度的效果应遵循报酬递减率原则。
长度与信度的关系
krXX rnn 1 k 1rXX
k 3, n 90
（二）样本特征
1、样本团体异质性的影响
特点
样本越异质，分数分布越广，有可能高估信度。样本不同，信度就有可能不同。
2、样本团体平均能力水平的影响
特点:
团体平均水平太高或太低，分布变窄，可能低估信度.
选择测验时应注意
取样团体的变异性和能力水平建立信度的团体与欲测团体是否一致
方差相等时
方差不等时
使用条件
测验只能施测一次或没有复本的情况下使用. 当一个测验无法分成对等的两半时不宜使用.
2、同质信度（Homogeneity raliability）
同质性题目间的内部一致性
克龙巴赫系数
各类题型
类型
库-理信度
二值记分
（四）评分者信度（Scorer raliability）
0.80-0.85
非标准化测验
0.60-0.85

信度评价的一般原则 RXX ﹤0.70:不可靠,不能用; 0.70≦RXX ﹤0.85:可用于团体; RXX≧0.85:可用于鉴别个人.
几种典型测验的信度系数
测验类型成套成就测验学术能力测验成套倾向性测验客观人格测验兴趣问卷态度量表低 .66 .56 .26 .46 .42 .47 中 .92 .90 .88 .85 .84 .79 高 .98 .97 .96 .97 .93 .98
等值性
程序
误差内容取样
A卷
最短时距
B卷
复本等值的条件
● 各测验测量的是同一种心理特质；
● 各测验具有相同的内容和形式；
● 各测验的题目不应重复；
● 各测验题目数量相等；各测验难度和区分度大体相同； ● 各测验的分数分布（标准差和平均数）大体相同；
● 复本编制好后，应再测一次，以确保等值。
（2）两种测验分数的比较(差异的标准误)
2 SEd SE12 SE2
SEd S 2 rxx ryy
所得结果与1.96SE(0.05水平)进行比较,即可得出两个测验的差异是否显著.
3、确定信度的可接受水平

e商务文档

第三章误差及其检验

相关文档推荐：