当前位置：文档之家› 第五章信度

第五章信度

库德－理查逊公式 KR20公式： rxx = [ K /（K - 1）] [ 1-（Σpiqi）/ Sx2 ] pi为答对第i题的人数的比例；qi为答错第i题的人数的比例；K为题目数， Sx2为测验总分的变异。适用于：已知各项目的难度
KR21公式： rxx = [ K /（K - 1）] [1 -（K p q ）/ Sx ] ＝[K Sx2-X(K-X)］/(K-1) Sx2 适用于：各项目难度相近的情况
2人时：相关系数（积差相关）
多人时：肯德尔和谐系数
W=12 [ΣR i2 -（ΣR i）2 / N] / [K2（N3 -N）] （K=3 ~ 20；N=3 ~ 7时，查W表检验） R I为第i个被试被评的水平等级之和
＞.90
各种信度系数相应误差变异的来源（★）信度重测信度复本信度（连续施测）误差变异来源时间取样内容取样
概化理论的提出
克龙巴赫(Cronbach)等率先提出了概化理论（Generalizabillity Theory ）的基本框架；运用对方差或协方差分量分解的方法，将测验情景中的各类误差进行分解和控制，实现了对经典测量理论的扩展；用于评分者信度的估计、临界分数误差估计、测验分数的推广性和标准参照测验的信度研究中。
2
克龙巴赫α系数：
α = [ K /（K - 1）] [1 -（ΣSi2）/ Sx2 ] 注意：用于预测的测验或学绩测验可不考虑同质性。
验证理论构想时必须考虑同质性。因此，同质性不但与信度有关，还与效度有关。
五、评分者信度 1．含义和计算
（★）评分者信度（scorer
reliability）是指多个评分者给同一批人的答卷进行评分的一致性程度。
真分数理论的基本假设（★）： 1. 误差的平均数为0 2. 误差分数与真分数之间的相关为0； 3. 两次测量的误差分数之间的相关为0 。
对于一个团体来说， SX2 = ST2 + SE2
实得分数变异数＝真分数的变异数＋误差变异数（随机误差）
ST2 = SV2 + SI2
真变异数＝与测量目的有关的变异数＋与测量目的无关的稳定的变异数（系统误差）
• 克龙巴赫认为，获取的测验观察分仅仅只是可获取的测验观察分总体分数中的一个样本而已，因此，测验的编写者有责任说明对这个获取的观察分所来自的观察分总体分数(总体分)应如何认识。 • 从统计上说，总体分实际上就是所有观察分的平均数。在一个具体的测验条件下，如一个特定的场合、一个特定的主试以及被试在一个特定的测验形式上所获取的观察分，还有推测出来的总体分，与在另一个测验情形下所产生的观察分及其总体分相比较，一般说来两者总是不一样的。 • 测验编写者在指定了可获取的总体分之后，应对该测验进行一般化研究(即G研究)和决策研究(即D 研究)。
例：每个被试写两篇题目不同的短文，由三个评分者给所有短文评分。测量目标：被试的写作水平测量侧面：题目(2)、评分者(3)
GT的主要任务（★）：区分出误差的各种来源，并把误差方差分解成各个相应的方差分量，为控制和减少测量误差提供依据。
(二)在概化理论中用可靠性(dependability)的概念代替了传统信度的概念。可靠性指的是从一个测验或是测量的被测者得分到施测者同等程度接受的所有可能条件下被测者均分的概化的精确性，即从测量对象在样例测量上的得分到全域分的概化精确性。概化越精确，越能从一个测量或测验的情况来推断观察全域的情况。
三、信度好坏的判断标准（★）
标准化能力或学绩测验：>0.90 人格测验：>0.80 教师自编学绩测验：>0.60
第六节概化理论简介
（★）经典测验理论(CTT)中信度存在的问题： 1. 严格平行测验假设难以成立。要求子测验在内容、均数、变差、信效度方面完全相同。这在实际的测验情景中很难满足。 2. 信度系数往往随测量设计的不同而不同，误差难于控制，也不能有效地分离误差的来源。误差变异并非单一的结构，经典测量理论对误差来源的笼统划分与控制成为它在实际应用中最为突出的缺陷。
3、重测信度的误差来源与控制（★） ① 测验本身：心理特性的稳定性。适用于稳定的心理特质（速度测验、人格测验） ② 被试方面：成熟、知识变化、练习、记忆效果、情绪。时间间隔适当。要提高被试积极性、消除不合作态度。 ③ 施测过程及期间：记时错误、情结波动、健康状况、动机变化
二、复本信度
1．含义和计算（★）复本信度（Alternate-form reliability）是指两个平行(等值）的测验测量同一批被试所得结果的一致性程度。计算方法与再测法相同。 2．使用的前提条件（★） ① 两测验真正平行：项目的内容、形式、数量、难易、时限、指导语等 ② 被试要有条件接受两个测验。注意：时间间隔要适当。
Sx：所得分数的标准差
rxx：测验的信度真分数的置信区间（95%）
3．不同测验分数的比较
• 来自不同测验的原始分数无法直接比较。只有参照同一团体的平均分数，将它们转换成相同尺度的标准分数（T、Z），才能比较。
• 要比较个人在两种测验上的差异，用差异标准误来检验其差异的显著性。 • 差异标准误 S：标准分数的标准差 rxx、ryy：两个测验的信度系数 • 标准分数的差异与1.96SEd（0.05水平）进行比较。> = <?
复本信பைடு நூலகம்（间隔施测）
分半信度同质性信度评分者信度
时间与内容取样
内容取样内容取样和内容的异质性评分者间的差异
第五节影响信度系数的因素
一、影响因素除被试、测验内容、施测情景外，影响信度系数的因素还有：（一）分数分布的影响分数分布范围越宽，信度系数就越高。被试团体同质性水平同质性越高（个体差异越小）→分数分布范围小→ 信度越低
常见的分半方法是按测题序号奇偶分半：
①测验题目按某种顺序（如难度）排列； ②如果是随机排列的题目，则必须是所有题目是平等的（要么难度相等，要么性质一致，是测同一个心理特质的）； ③如果测验有多个分量表，应在分量表内部排好顺序，再把各分量表的两半组合起来求相关。
分半法:按正常的程序实施测验，然后将全部项目分成相等的两半，根据各人在这两半测验的分数计算其相关。然后进行修正（？）校正公式：斯皮尔曼-布郎公式 rxx= 2 rhh /（1+ rhh） rhh是两半测验分数之间的相关系数。
决定系数是真分数与实测分数相关系数的平方，标志着因变量能以自变量解释的比例部分。
误差越小，信度越高。
注意：（1）信度指的是一组测验分数或一系列测量的特性，而不是个人分数的特性；（2）真分数的变异数是不能直接测量的，因此信度是一个理论上构想的概念，只能根据一组实得分数作出估计。
信度系数
第三篇测量的理论
信度效度项目分析量表与常模
第五章
信度
同一个人一天中用同一称称体重多次,结果（单位：公斤）是： 55；40；62；45；55； 49；82；46；60；53 此人的体重是多少？
第一节
二、测量误差的种类
测量误差及其来源
一、测量误差的含义：测量值与实际值的差异
（★）系统误差：测量工具本身引起的误差（稳定）。（★）随机误差：由不稳定因素引起的误差（不稳定）。
第二节真分数及其有关的假设
一、真分数的含义（★）真分数（True Score）：一个测量工具在没有测量误差时所得到的真值。（★）操作定义：无数次测量结果的平均值。观察分数（Observed Score）：测验分数
二、真分数的数学模型及其假设对一个测验成绩（个体）而言 X=T+E X：测验分数；T：真分数；E：测量误差
注意：（1）信度系数有多种。（2）同一种信度系数也会因样本、测查时间不同而有多个。（3）信度系数只是对测量分数一致性的估计，但并没有指出不一致的原因。（4）获得较高的信度只是测验有效的必要条件。
二、测量误差的来源（★）
（一）测量工具（测验内部）引起的误差 1. 题目取样 2. 测验题目格式 3. 难度 4.指导语 5.时限
第四节估计信度的方法
一、重测信度 1．含义和计算（★）重测信度（testretest reliability）：用同一量表对同一组被试施测两次所得结果的一致性程度。
2．使用的前提条件（★） ① 所测量的心理特质必须是稳定的； ② 练习和遗忘的效果基本上相互抵消； ③ 在两次施测的间隔时期内，被试在所要测查的心理特质方面没有获得更多的学习和训练。
四、同质性信度
1．含义
同质性信度（homogeneity reliability），也叫内部一致性系数，是指测验内部所有题目间的一致性程度。可弥补分半法的不足。
（★）
2．计算及适用范围基本公式： rkk = K rij / [ 1 +（K - 1）rij ] K为测验项目数 r ij是项目间相关系数的平均数。
（二）由施测过程引起的误差
1. 物理环境
2.主试因素
3.意外干扰
4.评分计分
（三）被试引起的误差 1. 应试动机 2. 测验焦虑 3. 生理因素 4. 学习、发展和教育 5. 测验经验
三、信度的作用
1．评价测验：信度是测量过程中所存在的随机误差大小的反映 2．解释个人测验分数的意义
SE：标准误
当假定“两半测验等值（具有相同的平均数和标准差”）不成立时，用弗朗那根公式或卢仑公式来估计信度。弗朗那根公式： rxx = 2 [ 1 -（Sa2 + Sb2）/ Sx2] Sa2 、 Sb2是两半测验分数的变异数， Sx2是测验总分的变异数
卢仑公式： rxx = 1 - Sd2 / Sx2 Sd2 ：两半测验分数之差的变异数 Sx2：测验总分的变异数

e商务文档

第五章信度

相关文档推荐：