当前位置:
文档之家› 心理测量 第四章 测量的信度
心理测量 第四章 测量的信度
什么样的测量要考虑重测信度?
• 人的多数心理特质如智力、性格等,具有 相对的稳定性,因此对这些心理特质的测 量,应该前后一致。因此,我们希望得到 测验稳定性的证据。 • 另外,我们还经常要用测验分数对人做预 测,此时测验分数的跨时间的稳定性更加 重要。
• 重测信度的优点在于提供有关测验结果是否随时 间而变异的资料,作为预测受试者将来行为表现 的依据。其缺点是易受学习和记忆的影响。 • 如果相隔时间太短,则记忆犹在,练习的影响很 大,往往造成假性的高相关;如果相隔时间太长, 那么身心特质的发展与学习经验的累积等均足以 改变测验分数的意义,使相关降低。 • 一般来说,最适宜的相隔时间随测验的目的和性 质而异,少者两周,多者半年。
2.信度可以帮助进行不同测验分数 的比较
• 来自不同测验的原始分数是无法直接比较 的,而必须将它们转换成相同尺度的标准 分数才能进行比较。 • 例:某班期末考试,张生语文、数学的成 绩转换成T分数(平均数为50、标准差为10) 分别为65和70,由此我们可以知道张生的 数学比语文考得稍好些,但二者差异是否 有意义,仍不清楚。
再测信度(稳定性) 复本信度,分半信度(等值性) , Alpha系数(同质性) 先后施测两个复本
评分者信度
一、重测信度
• 1.含义和计算 • 重测信度(test-retest reliability)指的是用同一个量表对 同一组被试施测两次所得结果的一致性程度。 • 重测信度能表示两次测验结果有无变动,反映测验分数的 稳定程度,所以又叫稳定性系数。 • 其计算公式即皮尔逊积差相关公式: • XX = [ (X X ) (YY )] / √ (X X )2. (YY )2 • 公式中,XX是重测信度,X及X是第一次测量的实得分数 及实得分数的平均值,Y及Y是第二次测量的实得分数及 实得分数的平均值。
• 测量的标准误可用下式计算:
• SE=SX √ (1 - XX) • 这里SE为测量的标准误,SX为所得分数的 标准差,XX为测量的信度。 • 从式中可以看出,测量的标准误与信度之 间有互为消长的关系:信度越高,标准误 越小;信度越低,标准误越大。
• 根据上公式,知道了一组测量的标准差和信度系 数,就可以求出测量的标准误。进一步我们就可 以从每个人的实得分数估计出真分数的可能范围, 即确定出在不同或然率水准上真分数的置信区间。 • 人们一般采用95%的或然率水准,其置信区间为: • (X-1.96SE) T (X+1.96SE) • 这就是说,大约有95%的可能性真正分数落在所 得分数1.96SE的范围内,或者5%的可能性落在 这范围之外。这实际上也表明了再测时分数改变 的可能范围。
二、信度系数
• 大部分的信度指标都以相关系数表示,即用同一被试样本 所得的两组资料的相关作为测量一致性的指标,称作信度 系数。 • 要注意三点: • (1)在不同的情况下,对不同样本,采用不同方法会得 到不同的信度系数,因此一个测验可能不止一个信度系数。 • (2)信度系数只是对测量分数不一致程度的估计,并没 有指出不一致的原因。 • (3)获得较高的信度系数并不是心理测量追求的最终目 标,它只是迈向目标的一步,是使测验有效的一个必要条 件。
• (3)测验分数是一个人真正分数的最佳估计,但 由于存在测量误差,所以必须将测验分数看成以 该点为中心上下波动的范围,而不要看成确切的 点。这一范围有多宽将取决于测量标准误的大小, 最终取决于信度系数。 • (4)测量标准误是对测量误差的描绘,用它能对 个人真正分数的置信区间作出估计,但用它来估 计个人真正水平则可能导致严重错误,因为它没 有考虑到系统误差的影响。
第四章 测量信度
• 2010-9-25
第一节 信度概述
• 一、什么是信度 • 信度又叫可靠性,是指测量结果的稳定性 程度或一致性程度。 • 一个好的测验必须稳定可靠,即多次测量 的结果保持一致,否则便不可信。
• 任何一种测量,总有或多或少的误差,信 度受随机误差的影响。随机误差越大,信 度也就越低;随机误差越小,信度就越高。
三、分半信度
• 分半信度(split-half reliability)指的是将一个测 验分成对等的两半,根据所有被试在这两半测验 上所得分数的一致性程度。 • 分半信度系数可以和等值性系数一样解释。因为 这两半测验基本上相当于最短时距施测的两个平 行的复本,由于只需要对一个测验进行一次施测, 考察的是两半题目之间的一致性,所以这种信度 系数有时也被称为内部一致系数。 • 虽然分半信度也可当作内部一致性的测量,但我 们将归类为等值的特例,与其它等值性测量唯一 不同之处是在测验施测后才分成两个。
例题
• 在一次测验中有一学生得80分,这是否反 映了他们的真实水平?如果再测一次他的 分数将改变多少?已知该次测验的标准差 为5,信度系数为0.84。 • 首先计算SE: • SE= 5 √ (1-0.84) =2 • T=80 1.96 2 = 76.08~83.92 • 我们可以说该学生的真正分数有95%的可 能性落在76与84分之间。
分半信度的计算:
• 和等值复本信度的计算方法类似,只不过 被试在两半测验上得分的相关系数只是半 个测验的信度。由于在其它条件相等的情 况下,测验越长,信度越高,因此必须用 “斯皮尔曼——布朗公式”进行校正: • XX =2 hh / (1 hh ) • 式中XX为整个测验的信度,hh为两半测验 分数间的相关系数。
第二节 信度的估计方法
• 信度是反映测量中随机误差大小的指标。 由于造成测量的随机误差的方式或来源多 种多样,所以信度的估计方法也多种多样。 下面所介绍的信度估计方法是分别考察信 度的某一方面的,使用时要特别注意它的 含义及适用范围。
信度与误差来源
误差来源
信度类型
时间 内容 时间和内容
评价者/观察者
• 两个等值测验可同时连续施测或相距一段时间分 两次施测。前者的复本信度又称等值性系数,其 分数的不一致主要来自题目取样的差别,因为两 次测验的间隔极短,所以没有时间造成的误差。 后一种复本信度又称稳定性与等值性系数。因为 它把复本法与重测法结合起来,所有影响施测和 再施测不一致的因素以及影响平行型不一致的因 素都将对它发生影响,因此分数的不一致性最高。 可见与稳定性系数和等值性系数相比,稳定性与 等值性系数是对信度的最严格的检验,其值最低。
• 弗朗那根(Flanagan)公式: • XX = 2 [ 1 (Sa2+Sb2)/Sx2] • 公式中Sa2和Sb2分别表示所有被试在两半测 验上得分的变异数,Sx2表示全体被试在整 个测验上的总得分的变异数。
• 2.使用的前提条件(3个条件)
• (1)该测验测量的心理特性必须相当稳定。 • (2)遗忘和练习的效果基本上相互抵消。 • (3)两次测验期间的学习效果没有差异。 • 学校的各种测验或标准化考试,上面三个假设几 乎是无法满足的。因此,一般标准化考试很少用 重测法来估计测验的信度。 • 成人的人格特质一般是稳定的,并且不容易受遗 忘、练习、学习的影响,较多用重测法估计信度。
• 信度也可看作测量结果受机遇影响的程度。
• 信度的含义可以从两个层面加以分析: • (1)当我们以同样的测量工具重复测量某 项持久性的特质时,是否得到相同的结果? 由此可知此一测量工具的稳定性。 • (2)测量工具能否减少随机误差的影响, 提供某项特质个别差异程度的真实量数? 由此可知测量结果的精确性。
用SE估计个人分数的误差 要注意四点:
• (1)一个测验有很多可能的信度估计,因 而也有同样多的标准误估计,在实际工作中 要注意选择最适合某一特殊情况的信度估计 来解决问题。 • (2)理论假定SE在所有分数水平都一样, 但有时高分段与低分段其标准误并不相同。 水平高的人与水平低的人在做测量时会有不 同的随机误差,受随机误差的影响也不一样。
• 2.使用前提条件 • 首先要有两份或两份以上真正平行的测验。即两测验在题 目内容、数量、形式、难度、区分度、指导语、时限、以 及所用的例题、公式和测验的其它所有方面都应该相同或 相似。若不一致,所得的信度就成了歪曲的估计。 • 事实上,要编制两份完全等值的测验是不大可能的,即使 是很有经验的测验编制者,也只能编制出基本等值的测验。 • 用复本法估计测验的信度的条件之二便是被试要有条件接 受两个测验。这种条件主要取决于时间和经费等几个方面。 • 对于稳定性与等值性系数,还需要满足重测信度的基本条 件。
• 由于SX2=ST2+SE2, • 所以信度还可表示为: • XX=(SX2-SE2)/ SX2=1- SE2/ SX2 • 信度在1(完全可信)与0(不可信)之间
• 由于真分数的变异数是不能直接测量的,因此信 度是一个理论上构想的概念,由于我们无法得到 测验的真正信度,我们只能用一些指标对它进行 估计。
ห้องสมุดไป่ตู้ 二、复本信度
• 1.含义与计算 • 任何测验都只是所有可能题目中的一份取 样,所以可能编制许多平行的等值测验, 叫做复本。 • 复本信度(alternate-form reliability)就是 指用两个复本测验测量同一批被试所得结 果的一致性程度。 • 其大小等于同一批被试在两个复本测验上 所得分数的积差相关系数。
信度系数达到多高才可以接受呢?
• 最理想的情况是XX=1,但这是办不到的。 • 一般能力与成就测验的信度系数要求在0.90以上, 有的可以达到0.95; • 至于性格、兴趣、价值观等人格测验的信度系数, 通常在080到085或更高些。 • 当XX<0.70时,不能用测验来对个人作评价,也 不能在团体间作比较; • 当XX大于或等于0.70时,可用于团体间比较; • 当XX大于或等于0.85时,可用于鉴别个人。
• 任何测验只有包含特定样本的题目,由特 定的施测者,对特定的被试,在特定的时 间、地点施测,情况不同便会得到不同的 分数。由于信度系数总是在特定情况下获 得的,因此,只有当一个测验在很多情况 下被证实具有较高的信度时,才可以说它 是比较可靠的测验。