信度和效度社会学系02研王丽云当我们建构和评估测量时,我们通常使用信度和效度这两个技术性指标。
简单地说信度就是指测量数据和结论的可靠性程度,也就是说测量工具能否稳定地测量到它要测量的事项的程度。
我们可以举例说明信度的问题:如果想知道某人的体重,我们可以叫两个人来估计,一个人的估计为150镑,另一个人的估计为300镑,那么我们就可以认为,叫别人来估计体重是非常不可信的方法。
如果用磅秤,连续测量两次的结果都是相同的,因而我们可以说,在测量体重方面,用磅秤的方法要比叫人来估计更可信。
我们可以用信度系数来表示信度的大小。
我们知道在进行测量时,误差是难免的,这就使得真实值和测量值之间是不可能完全一致。
我们可以这样来表示真实值和测量值之间的关系。
X=T+B+ET表示真实值,B表示偏差即系统误差,E表示测量误差即随机误差。
由于系统误差很难分解,因而有些书中的分解式将系统误差包括在真实值之中,因而X可以简单地概括为X=T+E对于测量误差E,一般假定他的期望值是0,却与真实值相独立,在此假定下,可以证明:E(x)=E(T)实得分数和真分数的总体均值相等。
σ2x=σ2T+σ2E实得分的方差等于真分数的方差与误差方差之和。
信度一般规定是真分数的方差在总体方差中所占的比例,即:信度系数Rxx=σ2T/σ2X=1-(σ2E/σ2X)信度系数越大,表明测量的可信程度越大。
在实际应用中,信度主要有以下几种类型:(一) 重测信度这种方法通常是重复同样的测量来检验信度信度系数可以用相关系数来表示。
假如我们第一次测量时的观测值是X,第二次的观测值是Y,那么重测信度就等于X与Y的相关系数。
但重复测量时,我们要注意两次测量的时间间隔要恰当。
如果时间间隔太久,可能会发生一些变故,影响到被调查者的态度,那么前后的测量就会有很大的差异。
(二)复本信度复本是针对原本而言的,它使原本的复制品。
对一项调查的问题,让被调查者接受问卷测量,并同时接受调查问卷的副本的调查,然后根据结果计算原本和复本的相关系数,就得到复本信度。
(三)折半信度通常是在无副本且不准备重测的情况下,我们就用折半信度来计算信度系数。
举例来说,如果有一份问卷,其中有十个问题涉及到女性歧视现象。
利用折半信度时,可将是个问题随机分成两组,每组有五个问题,然后根据每组的测量结果来计算两组的相关系数,就是折半信度,Rhh。
但整个问卷的信度需要用校正公式来得到:Rxx=2Rhh/(1+Rhh) (变异性相等)Rxx=2(1-(Sa2+Sb2)) (两部分的变异性不等)。
(四)评分者信度这种方法在测量工具的标准化程度较低的情况下进行的。
不同评分者的判分标准也会影响测量的信度,要检验评分者信度,可计算一个评分者的一组评分以另一个评分者的一组评分的相关系数。
效度效度就是正确性程度,即测量工具在多大程度上反映了我们想要测量的概念的真实含义,效度越高,即表示测量结果越能显示出所要测量的对象的真正特征。
类似于信度系数的公式,效度系数一般规定为与测量的目的相关的分数的方差在总方差中所占的比例,即效度= σ2Tx/σ2x=1-(σ2T0+σ2E)/ σ2x,Tx是通过分解真分数得到的。
我们将T分成两部分,一部分是我们想要测量的特质Tx,另一部分是与测量目的不相关的T0, T=Tx+T0 。
效度类型效度是一个多层面的概念,它是相对于特定的研究目的和研究侧面来言的。
因而,检验效度必须针对其特定的目的功能及适用范围,从不同的角度收集各方面的资料分别进行。
检验效度的方法大体有三种。
(一)内容效度考察内容效度旨在系统地检查测量内容的适当性,并根据我们对所研究的概念的了解去鉴别测量内容是否反映了这一概念的基本内容。
检验内容效度就是检验由概念到指标的经验推演是否符合逻辑,是否有效。
内容效度实质上是一个判断问题。
K.D贝利在《社会研究方法》中指出,内容效度必须考虑两个主要问题:(1)测量工具所测量的是否正是调查人员所想要测量的那种行为(2)测量工具是否提供了有关的那种行为的适当样品(二)准则效度准则效度是指被假设或定义为有效的测量标准,符合这种标准的测量工具是可以作为测量某一特定现象或概念的效标。
当我们对同一现象的或概念进行测量时,我们可以使用多种的测量工具,每种测量方式与效标的一致性就成为准则效度。
(三)建构效度考察建构效度就是要了解测量工具是否反映了概念和命题的内部结构,这种方法常常在理论的研究中使用。
由于它是通过与理论假设相比较来检验的,因此建构效度也被称为理论效度。
对建构效度的理解我们可以参考一下艾尔.巴比的《社会研究方法》的173页。
最后我们可以通过这样的图示来更清晰地理解三种效度类型(1)内容效度(2)准则效度(3)建构效度概念层次X 政治知识X 学习能力X工作积极性Y闲暇时间利用经验层次Y政治成绩X1 X2 X1工作主动性Y1有效活动时间比率预测学习成绩实际学习成绩X2工作动机信度和效度的关系信度和效度的关系我们可以参考一下艾尔。
巴比的《社会研究方法》的173图示。
这个图示很清晰地说明了二者的关系。
通过信度系数和效度系数的计算公式我们也可以从数理的方面来理解两者的关系:由于σ2x=σ2T0+ σ2x,σ2T0可以理解是系统偏差的方差。
σ2T大并不能保证σ2Tx也大,也就是信度高不能说明效度高。
但σ2Tx相对于来说很大的话,即效度高,那么,σ2T /σ2x也较大,即效度高,信度一定高,也就是说信度是效度的必要条件,但不是充分条件。
最后我们可以这样概括两者的关系:(1)信度低,效度不可能高。
因为如果测量的数据不准确,也并不能有效地说明所研究的对象(2)信度高,效度未必高。
例如,如果我们准确地测量出某人的经济收入,也未必能够说明他的消费水平。
(3)效度低,信度很可能高。
例如,即是一项研究未能说明社会流动的原因,但它很有可能很精确很可靠地调查各个时期各种类型的人的流动数量。
(4)效度高,信度也必然高。
什么叫信度和效度测试信度(test reliability)也叫测试的可靠性,指的是测试结果是否稳定可靠。
也就是说,测试的成绩是不是反映了受试者的实际语言水平。
例如,如果同一套测试在对同一测试对象(即受试者本身没有变化)进行的数次测试中,受试者的分数忽高忽低的话,则说明该测试缺乏信度。
测试的信度与测试的效度有着密切的关系。
一般说来,只有信度较高的测试才能有较高的效度,但效度较高不能保证信度也一定较高。
测试的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。
试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因素;评分是否可靠则要看评分标准是否客观和准确。
测试的信度通常用一种相关系数(即两个数之间的比例关系)来表示,相关系数越大,信度则越高。
当系数为1.00时,说明测试的可靠性达到最高程度;而系数是0.00时,则测试的可靠性降到最低程度。
在一般情况下,系数不会高到1.00,也不会降到0.00,而是在两者之间。
对信度指数的要求因测试类别的不同而不同,人们通常对标准化测试的信度系数要求在0.90以上,例如“托福”的信度大致为0.95,而课堂测试的信度系数则以0.70-0.80之间为可接受性系数。
测试信度的计算方法有很多种,以下仅介绍三种易于操作的方法:1)重测法(the retesting method)。
用同一套试卷在两个不同时间内来测试同一批受试者,这样便获得两组分数,然后计算出两组分数的相关系数。
当然,在两次测试中,学生第二次的测试成绩理应比第一次的要高,因为在第二次测试时学生已经有了进步而且临场经验也更丰富了。
但是若该试题是比较可靠的,每个学生在两次测试中的排名次序应该是基本不变的。
2)交替形式法(the alternative method)。
对同一批受试者使用试题类型完全相同,难易程度相当,但具体题目不同的两套对等试卷先后进行两次测试,然后计算出两次得分的相关系数。
3)对半法(the split-half method)。
测试只进行一次,但将整份试卷的题目按单、双数分成两组来分别计分,算出两组分数的相关系数,然后再用Spearman-Brown的公式计算整份试卷的信度系数。
具体计算步骤是:将两组分数的相关系数乘以2,再除以1加两组分数的相关系数。
测试效度(test validity)亦称测试的有效性,指一套测试对应该测试的内容所测的程度。
也就是说,一套测试是否达到了它预定的目的以及是否测量了它要测量的内容。
例如:“Is photography an art orscience?Discuss.”这种题目以摄影的知识为前提和主要内容,用来考语言能力,就不具有效性。
又如用听写来测量学生的听觉能力,其效度也是不理想的,因为书面记录有声语言不仅涉及学生的听觉能力,而且还与他们的书写速度、拼写能力、语法知识、记忆能力和对全文的理解能力等有关。
测试的效度一般可分为以下几类:1)表面效度(face validity)。
指测试应达到的卷面标准,即一套测试题从表面看来是否是合适的。
例如,若一次阅读理解力的测试包括许多受试者没有学过的方言词汇,则可认为这次测试缺乏表面效度。
表面效度是测试出受试者正常水平的一种保证因素。
2)内容效度(content validity)。
指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求,即测试的代表性和覆盖面的程度。
例如,如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能,如只考单一音素的发音,而不考查重读、语调或音素在词语中的发音,那么,该测试的内容效度就很低。
3)编制效度(construct validity)。
指一套测试题的诸项目对编制该测试所依据的理论的各个基本方面的反映程度。
例如,以结构主义语言理论为基础,认为系统的语言习惯是通过句型而获得的,那么,强调词汇和语法环境的测试题目就失去了编制效度。
4)经验效度(empirical validity)。
经验效度是一种衡量测试有效性的量度,通过把一次测试与一个或多个标准尺度相对照而得出。
经验效度可分为两种:一是共时效度(concurrent validity),即将一次测试的结果同另一次时间相近的有效测试的结果相比较,或同教师的鉴定相比较而得出的系数;二是预测效度(predictive validity),即将一次测试的结果同后来的语言能力相比较,或是同教师后来对学生的鉴定相比较而得出的系数。
一般来说,对某次测试的效度进行检验时,除了要根据教学大纲的要求和观念有效性的理论对试卷的内容进行考查以外,还须采用计算相关系数的定量方法,即计算出本次试卷与另一份已被确定能正确反映受试者水平的试卷之间的相关系数。
系数高则有效性大。
课堂测试的效度应在0.4-0.7之间,规模较大的测试其效度应在0.7以上。