第五章信度
库德-理查逊公式 KR20公式: rxx = [ K /(K - 1)] [ 1-(Σpiqi)/ Sx2 ] pi为答对第i题的人数的比例;qi为答错第i题的 人数的比例;K为题目数, Sx2为测验总分 的变异。 适用于:已知各项目的难度
KR21公式: rxx = [ K /(K - 1)] [1 -(K p q )/ Sx ] =[K Sx2-X(K-X)]/(K-1) Sx2 适用于:各项目难度相近的情况
2人时:相关系数(积差相关)
多人时:肯德尔和谐系数
W=12 [ΣR i2 -(ΣR i)2 / N] / [K2(N3 -N)] (K=3 ~ 20;N=3 ~ 7时,查W表检验) R I为第i个被试被评的水平等级之和
>.90
各种信度系数相应误差变异的来源 (★) 信度 重测信度 复本信度(连续施测) 误差变异来源 时间取样 内容取样
概化理论的提出
克龙巴赫(Cronbach)等率先提出了概化理论 (Generalizabillity Theory )的基本框 架; 运用对方差或协方差分量分解的方法,将测 验情景中的各类误差进行分解和控制,实现 了对经典测量理论的扩展; 用于评分者信度的估计、临界分数误差估计、 测验分数的推广性和标准参照测验的信度研 究中。
2
克龙巴赫α系数:
α = [ K /(K - 1)] [1 -(ΣSi2)/ Sx2 ] 注意: 用于预测的测验或学绩测验可不考虑同质性。
验证理论构想时必须考虑同质性。因此,同 质性不但与信度有关,还与效度有关。
五、评分者信度 1.含义和计算
(★) 评分者信度(scorer
reliability)是指多个评分者 给同一批人的答卷进行评分的一致性程度。
真分数理论的基本假设(★) : 1. 误差的平均数为0 2. 误差分数与真分数之间的相关为0; 3. 两次测量的误差分数之间的相关为0 。
对于一个团体来说, SX2 = ST2 + SE2
实得分数变异数=真分数的变异数+误差变异数(随机误差)
ST2 = SV2 + SI2
真变异数=与测量目的有关的变异数+与测量目的无关的稳 定的变异数(系统误差)
• 克龙巴赫认为,获取的测验观察分仅仅只是可获 取的测验观察分总体分数中的一个样本而已,因 此,测验的编写者有责任说明对这个获取的观察 分所来自的观察分总体分数(总体分)应如何认识。 • 从统计上说,总体分实际上就是所有观察分的平 均数。在一个具体的测验条件下,如一个特定的 场合、一个特定的主试以及被试在一个特定的测 验形式上所获取的观察分,还有推测出来的总体 分,与在另一个测验情形下所产生的观察分及其 总体分相比较,一般说来两者总是不一样的。 • 测验编写者在指定了可获取的总体分之后,应对 该测验进行一般化研究(即G研究)和决策研究(即D 研究)。
例:每个被试写两篇题目不同的短文,由三个 评分者给所有短文评分。 测量目标:被试的写作水平 测量侧面:题目(2)、评分者(3)
GT的主要任务(★) : 区分出误差的各种来源,并把误差方差分解 成各个相应的方差分量,为控制和减少测量 误差提供依据。
(二)在概化理论中用可靠性(dependability)的 概念代替了传统信度的概念。 可靠性指的是从一个测验或是测量的被测者 得分到施测者同等程度接受的所有可能条件 下被测者均分的概化的精确性,即从测量对 象在样例测量上的得分到全域分的概化精确 性。 概化越精确,越能从一个测量或测验的情况 来推断观察全域的情况。
三、信度好坏的判断标准(★)
标准化能力或学绩测验:>0.90 人格测验:>0.80 教师自编学绩测验:>0.60
第六节 概化理论简介
(★)经典测验理论(CTT)中信度存在的问题: 1. 严格平行测验假设难以成立。要求子测验在 内容、均数、变差、信效度方面完全相同。 这在实际的测验情景中很难满足。 2. 信度系数往往随测量设计的不同而不同,误 差难于控制,也不能有效地分离误差的来源。 误差变异并非单一的结构,经典测量理论对 误差来源的笼统划分与控制成为它在实际应 用中最为突出的缺陷。
3、重测信度的误差来源与控制(★) ① 测验本身:心理特性的稳定性。适用于稳 定的心理特质(速度测验、人格测验) ② 被试方面:成熟、知识变化、练习、记忆 效果、情绪。时间间隔适当。要提高被试 积极性、消除不合作态度。 ③ 施测过程及期间:记时错误、情结波动、 健康状况、动机变化
二、复本信度
1.含义和计算 (★)复本信度(Alternate-form reliability)是指 两个平行(等值)的测验测量同一批被试所得结果 的一致性程度。 计算方法与再测法相同。 2.使用的前提条件(★) ① 两测验真正平行:项目的内容、形式、数量、难 易、时限、指导语等 ② 被试要有条件接受两个测验。注意:时间间隔要 适当。
Sx:所得分数的标准差
rxx:测验的信度 真分数的置信区间(95%)
3.不同测验分数的比较
• 来自不同测验的原始分数无法直接比较。只有参 照同一团体的平均分数,将它们转换成相同尺度 的标准分数(T、Z),才能比较。
• 要比较个人在两种测验上的差异,用差异标准误 来检验其差异的显著性。 • 差异标准误 S:标准分数的标准差 rxx、ryy:两个测验的信度系数 • 标准分数的差异与1.96SEd(0.05水平)进行比 较。> = <?
复本信பைடு நூலகம்(间隔施测)
分半信度 同质性信度 评分者信度
时间与内容取样
内容取样 内容取样和内容的异质性 评分者间的差异
第五节 影响信度系数的因素
一、影响因素 除被试、测验内容、施测情景外,影响信度系数的因 素还有: (一)分数分布的影响 分数分布范围越宽,信度系数就越高。被试团体同质 性水平 同质性越高(个体差异越小)→分数分布范围小→ 信度越低
常见的分半方法是按测题序号奇偶分半:
①测验题目按某种顺序(如难度)排列; ②如果是随机排列的题目,则必须是所有题目是 平等的(要么难度相等,要么性质一致,是测同 一个心理特质的); ③如果测验有多个分量表,应在分量表内部排好 顺序,再把各分量表的两半组合起来求相关。
分半法:按正常的程序实施测验,然后将全 部项目分成相等的两半,根据各人在这两半 测验的分数计算其相关。然后进行修正(?) 校正公式:斯皮尔曼-布郎公式 rxx= 2 rhh /(1+ rhh) rhh是两半测验分数之间的相关系数。
决定系数是真分数与实测分数相关系数的平方,标志着 因变量能以自变量解释的比例部分。
误差越小,信度越高。
注意: (1)信度指的是一组测验分数或一系列测量 的特性,而不是个人分数的特性; (2)真分数的变异数是不能直接测量的,因 此信度是一个理论上构想的概念,只能根据 一组实得分数作出估计。
信度系数
第三篇 测量的理论
信度 效度 项目分析 量表与常模
第五章
信度
同一个人一天中用同一称称体重多次,结 果(单位:公斤)是: 55;40;62;45;55; 49;82;46;60;53 此人的体重是多少?
第一节
二、测量误差的种类
测量误差及其来源
一、测量误差的含义: 测量值与实际值的差异
(★)系统误差:测量工具本身引起的误差(稳定)。 (★)随机误差:由不稳定因素引起的误差(不稳定)。
第二节 真分数及其有关的假设
一、真分数的含义 (★)真分数(True Score):一个测量工具 在没有测量误差时所得到的真值。 (★)操作定义:无数次测量结果的平均值。 观察分数(Observed Score):测验分数
二、真分数的数学模型及其假设 对一个测验成绩(个体)而言 X=T+E X:测验分数;T:真分数;E:测量误差
注意: (1)信度系数有多种。 (2)同一种信度系数也会因样本、测查时间 不同而有多个。 (3)信度系数只是对测量分数一致性的估计, 但并没有指出不一致的原因。 (4)获得较高的信度只是测验有效的必要条 件。
二、测量误差的来源(★)
(一)测量工具(测验内部)引起的误差 1. 题目取样 2. 测验题目格式 3. 难度 4.指导语 5.时限
第四节 估计信度的方法
一、重测信度 1.含义和计算 (★)重测信度(testretest reliability): 用同一量表对同一组 被试施测两次所得结 果的一致性程度。
2.使用的前提条件(★) ① 所测量的心理特质必须是稳定的; ② 练习和遗忘的效果基本上相互抵消; ③ 在两次施测的间隔时期内,被试在所要测 查的心理特质方面没有获得更多的学习和 训练。
四、同质性信度
1.含义
同质性信度(homogeneity reliability), 也叫内部一致性系数,是指测验内部所有题 目间的一致性程度。可弥补分半法的不足。
(★)
2.计算及适用范围 基本公式: rkk = K rij / [ 1 +(K - 1)rij ] K为测验项目数 r ij是项目间相关系数的平均数。
(二)由施测过程引起的误差
1. 物理环境
2.主试因素
3.意外干扰
4.评分计分
(三)被试引起的误差 1. 应试动机 2. 测验焦虑 3. 生理因素 4. 学习、发展和教育 5. 测验经验
三、信度的作用
1.评价测验:信度是测量过程中所存在的随 机误差大小的反映 2.解释个人测验分数的意义
SE:标准误
当假定“两半测验等值(具有相同的平均数 和标准差”)不成立时,用弗朗那根公式或 卢仑公式来估计信度。 弗朗那根公式: rxx = 2 [ 1 -(Sa2 + Sb2)/ Sx2] Sa2 、 Sb2是两半测验分数的变异数, Sx2是测验总分的变异数
卢仑公式: rxx = 1 - Sd2 / Sx2 Sd2 :两半测验分数之差的变异数 Sx2:测验总分的变异数