第三十课 Spearman 等级相关分析一、 秩相关的Spearman 等级相关分析前面介绍了使用非参数方法比较总体的位置或刻度参数,我们同样也可以用非参数方法比较两总体之间相关问题。
秩相关(rank correlation )又称等级相关,它是一种分析i x 和i y 等级间是否相关的方法。
适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反映大小等定出的等级资料,也适用于某些不呈正态分布或难于判断分布的资料。
设i R 和i Q 分别为i x 和i y 各自在变量X 和变量Y 中的秩,如果变量X 与变量Y 之间存在着正相关,那么X 与Y 应当是同时增加或减少,这种现象当然会反映在(i x ,i y )相应的秩(i R ,i Q )上。
反之,若(i R ,i Q )具有同步性,那么(i x ,i y )的变化也具有同步性。
因此∑∑==-==n i ni i i i Q R d d 1122)((30.1)具有较小的数值。
如果变量X 与变量Y 之间存在着负相关,那么X 与Y 中一个增加时,另一个在减小,d 具有较大的数值。
既然由(i x ,i y )构成的样本相关系数反映了X 与Y 之间相关与否的信息,那么在参数相关系数的公式),(Y X r 中以i R 和i Q 分别代替i x 和i y ,不是同样地反映了这种信息吗?基于这种想法,Charles Spearman 秩相关系数),(Q R r s 应运而生:∑∑∑∑∑∑∑----=22)1()1()1)(1(),(i i i i i ii i s Q n Q R n R Q n Q R n R Q R r (30.2)),(Q R r s 与),(Y X r 形式上完全一致,但在),(Q R r s 中的秩,不管X 与Y 取值如何,总是只取1到n 之间的数值,因此它不涉及X 与Y 总体其他的内在性质,例如秩相关不需要总体具有有限两阶矩的要求。
由于2)1(2111+=+++==∑∑==n n n Q R ni i n i i 6)12)(1(212221212++=+++==∑∑==n n n n Q R ni i n i i因此公式(30.2)可以化简为)1(61)1()(612222--=---=∑∑n n d n n Q R r i i i s (30.3)显然在i R =i Q 时,秩相关系数s r 到达最大值+1。
又因为i i i i i i i i Q R n n n Q R Q R Q R ∑∑∑∑∑-++=-+=-23)12)(1(2)(222而iiQ R ∑在每对iR +iQ =1+n 时到达最小值,最小值求法为i i i i Q R Q R n ∑∑∑∑++=+2)1(222所以最小的iiQ R ∑为6)12)(1(2)1(2++-+n n n n n 最大的2)(∑-i i Q R 为3)1()1(3)12)(1(222-=+-++n n n n n n n故秩相关系数s r 的最小值为1-2=-1。
在原假设i R 和i Q 不相关的情况为真时,即秩相关系数为0时,s r 的期望值s r μ为0,样本的方差为2122--=n r s s r s(30.4)自由度为2-n 且分布关于零点对称。
当≥n 10时,s r 的样本分布可以标准化为近似的t 分布)2(~1221022---=---=-=n t r n r n r r s r t sss s r r s ssμ (30.5)例30.1某公司想要知道是否职工期望成为好的销售员而实际上就能有好的销售记录。
为了调查这个问题,公司的副总裁仔细地查看和评价了公司10个职工的初始面试摘要、学科成绩、推荐信等材料,最后副总裁根据他们成功的潜能给出了单独的等级评分。
二年后获得了实际的销售记录,得到了第二份等级评分,见表30.1中的第1到4列所示。
统计问题为是否职工的销售潜能与开始二年的实际销售成绩一致。
表30.1 职工的销售潜能与销售成绩的秩相关分析 职工编号潜能等级i R销售成绩成绩等级i Qi i i Q R d -= 2i d1 2 400 1 1 1 2 4 360 3 1 1 3 7 300 5 2 4 4 1 295 6 -5 25 5 6 280 7 -1 1 6 3 350 4 -1 1 7 10 200 10 0 0 8 9 260 8 1 1 9 8 220 9 -1 1 105385239 =∑2id44Spearman 秩相关系数),(Q R r s 的计算过程见表4.10中的第5到6列所示,最后计算结果为7333.0)1100(10)44(61)1(6122=--=--=∑n n d r i s表明潜能与成绩之间是较强的正相关,高的潜能趋向于好的成绩。
秩相关系数),(Q R r s 原假设为0的t 检验统计量为05.3)7333.0(12107333.02=--=t查表自由度为8,t =3.05的双侧p =0.0158。
在0.05显著水平上,t 分布的上临界点为2.30,由于3.05>2.30,所以拒绝秩相关系数为0的原假设,接受潜能与成绩之间存在秩相关。
二、 Corr 相关过程Corr 相关过程用于计算变量之间的相关系数,包括Pearson (皮尔逊)的乘积矩相关和加权乘积矩相关。
还能产生三个非参数的关联测量:Spearman 的秩相关,Kendall 的tau-b 和Hoeffding 的相关性度量D 。
该过程也可以计算偏相关等一些单变量的描述性统计量。
1. Corr 过程说明proc corr 过程一般由下列语句控制:proc corr data=数据集 <选项>;var 变量列表; with 变量列表 ; partial 变量列表 ; weight 变量 ; freq 变量 ; By 变量列表 ; run ;proc corr语句调用corr过程,且是唯一必须的语句。
如果只使用proc corr这一条的语句,过程计算输入数据集中所有数值变量之间的相关系数。
其余语句是供选择的。
2. proc corr语句的选项●outp=数据集名——产生含有Pearson相关系数的一个新数据集。
●outs=数据集名——产生含有Spearman等级相关系数的一个新数据集。
●outk=数据集名——产生含有Kendallτb相关系数的一个新数据集。
●outh=数据集名——产生含有Hoeffding D统计量的一个新数据集。
●pearson——要求计算通常的pearson乘积矩相关系数,是缺省值。
●hoeffding——要求计算并输出Hoeffding 的D统计量。
●kendall——要求计算并输出Kendallτb相关系数。
●spearman——要求计算并输出Spearman等级相关系数。
●vardef=df | weight | wgt | wdf——指定计算方差时的除数:df(自由度n–1),weight或wgt(权重之和),n(观察数),wdf(权重之和-1)。
缺省值为df。
●cov——计算协方差–方差矩阵。
●sscp——要求输出平方和与交叉积和。
●csscp——要求输出偏差平方和与交叉积和。
●best=数值——对每个变量输出指定个数的绝对值最大的相关系数。
●noprint——禁止所有打印输出。
●noprob——禁止输出同这些相关有联系的显著性概率。
●nosimple——对原始数据执行标准方差分析。
●rank——要求按绝对值从高到低的次序对每个变量输出相关系数。
●nocorr——抑制Pearson相关的计算及输出。
●nomiss——将带有某一变量缺失值的观测值从所有计算中除去。
●nosimple——不输出每个变量的简单描述性统计量。
3. var语句该语句列出要计算相关系数的变量。
例如var a b c;则计算a和b,a和c,b和c三对变量之间的相关系数。
4. with语句为了得到变量间的特殊组合的相关系数,该语句和var语句联合使用。
用var语句列出的变量在输出相关阵的上方,而用with语句列出的变量竖在相关阵左边。
例如var a b;with x y z;则生成x和a,y和a,z和a,x和b,y和b,z和b。
5. partial语句为了计算Pearson偏相关,Spearman偏秩相关,Kendall偏tau-b,用该语句给出偏出去(即固定)的变量名。
6. weight语句为了计算加权的乘积矩相关系数,用该语句给出权数变量名。
该语句仅用于Pearson相关。
7. freq语句当规定freq语句时,输入数据集中的每个观察假定代表n个观察,其中n是该观察中freq 变量中的值。
观察的总数规定为freq变量值的和。
8. by语句使用by语句能够获得用by变量定义的分组观察的独立分析结果。
三、实例分析例30.1的SAS程序如下:data study.persons ;input x y @@;y=400-y;cards;2 400 4 360 7 300 1 295 6 2803 350 10 200 9 260 8 220 5 385;proc corr data=study.persons spearman;var x;with y;run;程序说明:建立输入数据集persons ,要注意实际数据所表示的等级次序大小与SAS系统中自动给出的等级次序大小的不同。
输入变量x,获得从1到10的数据,表示潜能等级从最高到最低,而输入变量y,获得从最大销售额400到最小销售额220,转换销售成绩等级应该是从高到低,即从1到10。
但在SAS系统中把销售成绩数值从小到大按等级值从1到10给予。
因此需要颠倒变量x或变量y中数值大小的次序,本程序用最大销售额400减去原来的销售额实现次序颠倒,即语句y=400-y。
等级相关与一般参数相关一样仍然调用corr过程,只需要在选择项中指定为何种等级相关,我们选择计算spearman秩相关系数。
var语句列出要计算相关系数的第一个变量x,with语句必须要与var语句联合使用,列出的要计算相关系数的第二变量y。
主要结果见表30.2所示。
Correlation Analysis1 'WITH' Variables: Y1 'VAR' Variables: XSimple StatisticsVariable N Mean Std Dev Median Minimum Maximum Y 10 95.000000 67.905163 102.500000 0 200.000000 X 10 5.500000 3.027650 5.500000 1.000000 10.000000Spearman Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 10XY 0.733330.0158表30.2 用corr过程进行多样本输出结果结果说明:Spearman等级相关系数为0.73333,是一个比较大的正相关系数。