二、常用相关分析方法及其计算
在教育与心理研究实践中,常用的相关分析方法有积差相关法、等级相关法、质量相关法,分述如下。
(一)积差相关系数
1. 积差相关系数又称积矩相关系数,就是英国统计学家皮尔逊(Pearson)提出的一种计算相关系数的方法,故也称皮尔逊相关。
这就是一种求直线相关的基本方法。
积差相关系数记作XY r ,其计算公式为
∑∑∑===----=
n
i i
n i i
n
i i
i
XY Y y X x Y y X x r 1
2
1
2
1
)
()()
)(( (2-20)
式中i x 、i y 、X 、Y 、n 的意义均同前所述。
若记X x x i -=,Y y y i -=,则(2-20)式成为 Y
X XY S nS xy
r ∑=
(2-21)
式中n
xy ∑称为协方差,n
xy ∑的绝对值大小直观地反映了两列变量的一致性程
度。
然而,由于X 变量与Y 变量具有不同测量单位,不能直接用它们的协方差
n
xy ∑来表示两列变量的一致性,所以将各变量的离均差分别用各自的标准差除,
使之成为没有实际单位的标准分数,然后再求其协方差。
即:
∑∑⋅=
=
)()(1Y
X Y
X XY S y
S x n S nS xy
r Y X Z Z n
∑⋅=
1
(2-22) 这样,两列具有不同测两单位的变量的一致性就可以测量计算。
计算积差相关系数要求变量符合以下条件:(1)两列变量都就是等距的或等比的测量数据;(2)两列变量所来自的总体必须就是正态的或近似正态的对称单峰分布;(3)两列变量必须具备一一对应关系。
2. 积差相关系数的计算
利用公式 (2-20)计算相关系数,应先求两列变量各自的平均数与标准差,再求离中差的乘积之与。
在统计实践中,为方便使用数据库的数据格式,并利于计
算机计算,一般会将(2-20)式改写为利用原始数据直接计算XY r 的公式。
即:
∑∑∑∑∑∑∑---=
2
22
2)
()
(i i
i i
i
i i i XY y y n x x n y x y x n r (2-23)
(二)等级相关
在教育与心理研究实践中,只要条件许可,人们都乐于使用积差相关系数来度量两列变量之间的相关程度,但有时我们得到的数据不能满足积差相关系数的计算条件,此时就应使用其她相关系数。
等级相关也就是一种相关分析方法。
当测量得到的数据不就是等距或等比数据,而就是具有等级顺序的测量数据,或者得到的数据就是等距或等比的测量数据,但其所来自的总体分布不就是正态的,出现上述两种情况中的任何一种,都不能计算积差相关系数。
这时要求两列变量或多列变量的相关,就要用等级相关的方法。
1、 斯皮尔曼(Spearman )等级相关
斯皮尔曼等级相关系数用R r 表示,它适用于两列具有等级顺序的测量数据,或总体为非正态的等距、等比数据。
斯皮尔曼等级相关的基本公式如下:
)
1(612
2--=∑n n D r R (2-24)
式中:
Y X R R D -=____________对偶等级之差;
n ____________对偶数据个数。
如不用对偶等级之差,而使用原始等级序数计算,则可用下式
)]1()
1(4[13+-+⋅-=∑n n n R R n r Y
X R (2-25) 式中:
X R ___________X 变量的等级; Y R ____________Y 变量的等级;
n ____________对偶数据个数。
(2-25)式要求∑∑=Y X R R ,∑∑=2
2Y
X R R ,从而保证22Y X S S =。
在观测变量中没有相同等级出现时可以保证这一条件。
但就是,在教育与心理研究实践中,搜集到的观测变量经常出现相同等级。
在这种情况下,∑∑=Y X R R 的条件仍可得到
保证,但∑∑=2
2Y
X R R 的条件则不能得到满足。
在有相同等级出现的情况下,∑2R 随相同等级数目的逐渐增多而有规律地减少,其减少的规律如下:
12
)1(2-=t t c
其中:
c ___________差数值(几个相同等级出现的∑2R 与没有相同等级出现的∑2R 之
差);
t
____________
某一等级的相同数。
当一列变量中有多个相同等级出现时,她们的差数值为:
∑∑-=12)
1(2t t c
从而,在出现相同等级情况下,计算斯皮尔曼等级相关系数的公式为:
∑∑∑∑∑⋅-+=
2
2
2
22
2y
x D y x r Rc (2-26)
式中:
∑∑---=12)
1(12)1(222
t t n n x ;
∑∑---=12)
1(12)1(222
t t n n y ;
n ____________对偶数据个数。
t
___________
各列变量相同等级数; D ____________对偶等级差数;
2、 肯德尔W 系数(肯德尔与谐系数)
肯德尔W 系数又称肯德尔与谐系数,就是表示多列等级变量相关程度的一种方法,它适用于两列以上等级变量。
肯德尔与谐系数用W 表示,其公式为
)(12
13
n n K SS W n Ri
-= (2-27)
式中:
Ri SS ___________i R
的离差平方与;
2
2
)()(∑∑∑-
=-=n
R R R R SS i
i i Ri
n
R R i i 2
2
)(∑∑-
=
K ___________等级变量的列数或评价者数目;
n ____________被评价对象数目。
肯德尔W 系数基于这么一种思想:当K 个评价者对几件事物进行等级评定,如果K 个评价者的意见完全一致,则n 个i R 分别为
K ,K 2,K 3,·
·· ,nK ,··· ,2
)
1(+=n K R , )(121]4)1(6)12)(1([)(3
2222n n K n n n n n K R R SS i Ri -=+-++=-=∑,
此时的1=W ;若如果K 个评价者的意见完全不一致,则0=Ri SS ,此时的0=W ;如果K 个评价者的意见存在一定的关系,但又不就是完全一致,则0≠Ri SS 。
因此,肯德尔W 系数的变化范围为10≤≤W ,当我们得到一个不等于0的肯德尔W 系
数,它仅表明了相关程度,由于0≥W ,对相关的方向尚需从实际资料中分析得出。
(三)质量相关
在教育与心理研究实践中,我们常将一列变量按事物的某一属性划分种类,而另一列变量则为等比或等距的测量数据,这种情况下求得的相关,称为质量相关。
1. 点双列相关
点双列相关适用于双列变量中一列为来自正态总体的等距或等比的测量数据;另一列为二分称名变量,即按事物的某一性质只能分为两类互相独立的变量,如男与女、文盲与非文盲等。
点双列相关的计算公式为
pq S X X r X
q
p pb -= (2-29)
式中:
p ___________
二分称名变量中取某一值的变量比例;
q
___________
二分称名变量中取另一值的变量比例;
p X ___________等距(比)变量中与p 对应的那部分数据的平均值; q X ___________等距(比)变量中与q 对应的那部分数据的平均值; X
S ___________
全部等距(比)变量的标准差。
点双列相关在教育与心理统计研究中作为选择题的区分度指标。
2. 双列相关
双列相关系数适用于两列变量均为来自正态总体的等距(比)变量;而其中一列被认为地划分为两个类别的数据。
双列相关系数的计算公式为
Y
pq
S X X r X q p b ⋅
-= (2-30)
式中:
X___________等距(比)变量中与p对应的那部分数据的平均值;
p
X___________等距(比)变量中与q对应的那部分数据的平均值;
q
p___________二分称名变量中取某一值的变量比例;
q___________二分称名变量中取另一值的变量比例;
X___________标准正态曲线下p与q交界点的Y轴高度(可查正态分布表得出)。
双列相关在教育与心理统计研究中常作为问答题或主观题的区分度指标。