当前位置:文档之家› 双变量关联性分析(研)

双变量关联性分析(研)

第十二章广东医学院公共卫生学院统计与流行病学教研室黄志刚•前面描述性统计及假设检验只涉及到一个变量,如体重、红细胞数、血压下降值等,着重于描述某一变量的统计特征或比较该变量的组间差别。

•在大量的医学问题研究中常常还要分析两个随机变量之间的关系,如体重与肺活量、年龄与血压之间是否存在线性联系,此联系是正向还是负向以及联系的程度如何?•如果两个连续型变量X和Y 都随机变动且不分主次,可通过线性相关(linear correlation)分析来估计它们之间可能存在的线性联系的方向与程度。

•两个随机变量X 和Y ,可以是对同一观察单位同时测量X 与Y 的数值,也可以是测量成对观察单位的同一变量或不同变量的数值,而产生一对观察值。

•为讨论父子身高间的线性相关程度,南方某地在应届中学毕业生花名册中随机抽取20 名男生,分别测量他们和他们的父亲的身高(cm),得样本资料如下表所示:•考察相关性最简单而直观的办法是散点图(scatter plot)•以两条互相垂直的座标轴分别表示两个变量,n 对观察值对应于座标平面的n 个点,便构成一幅散点图。

散点图第一节直线相关一、概述概念又称简单相关或Pearson相关分析,用于研究具有直线关系的两个变量间相关关系的密切程度与相关方向的一种统计分析方法应用条件要求两个变量均服从正态分布(双变量正态分布)相关系数的意义及计算又称积差相关系数或Pearson相关系数,说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标r表示样本相关系数,ρ表示总体相关系数•没有单位,取值介于-1与1之间•相关方向用正负号表示•相关的密切程度用绝对值表示()()()()22xyxx yyl x x y y r l l x x y y --==--∑∑∑•-1 ≤ r ≤1r 值为正——正相关为负——负相关|r|=1 ---完全相关r=0 ---零相关相关关系密切程度的判断低度相关中度相关高度相关4.0≤r 7.04.0<<r 7.0≥r相关关系图示变量相关关系的类型•【例12-1】2000年测得某地16名7岁男孩体重与胸围资料,见表12-1。

表12-1 2000年某地16名7岁男孩体重与胸围资料编号12345678 910111213141516体重(kg)24.527.023.528.523.026.726.824.624.819.719.517.220.019.020.221.0胸围(cm)61.062.060.064.059.358.458.658.758.556.055.654.553.052.058.057.0散点图计算例12-1中体重与胸围间相关系数●计算基础数据,并列成相关系数计算表●求出、、、、(见表12-2)●代入公式,求出相关系数值∑x ∑y ∑2x ∑2y ∑xy r表12-2 2000年某地16名7岁男孩体重与胸围相关系数计算表编号(1)x体重(kg)(2)y胸围(cm)(3)x2(4)=(2)2y2(5)=(3)2xy(6)=(2)×(3)124.561.0600.253721.001494.50 227.062.0725.003844.001674.00 323.560.0552.253600.001410.00 428.564.0812.254096.001824.00………………1520.258.0408.043364.001171.60 1621.057.0441.003249.001197.00合计366.0926.68548.3053813.5621332.38∑x∑y∑2x∑2y∑xy•x 的离均差平方和•y 的离均差平方和•x 与y 间的离均差积和()()222yy y l y y yn=-=-∑∑∑()()222xx x l x x xn=-=-∑∑∑()()()()xy x y l x x y y xy n=--=-∑∑∑∑22366926.621332.38160.8343366926.68548.3053813.561616r ⨯-==⎛⎫⎛⎫-- ⎪⎪⎝⎭⎝⎭()()()()22xy xx yyl x x y y r l l x x y y --==--∑∑∑r ≠0原因:①由于抽样误差引起,ρ=0②存在相关关系,ρ≠0t 检验查表法,按v=n-2查r 界值表,做出推断结论二、相关系数的假设检验0r rr t S -=•查表法–根据自由度 =n-2,查附表14,将所得r 值与某概率水平(如0.05)对应的r界值相比较,若r值小于r 界值,则P大于相应的概率水平,反之,P小于相应的概率水平,然后作出推断•t 检验方法2-=n ν0r rr t S -=212--=n r S r【检验步骤】1. 建立检验假设,确定检验水准0:0Hρ=1:0Hρ≠05.0=α2.计算检验统计量值r t 6623.52168343.018343.021022=--=---=n r r t r3.确定P值,做出统计推断•按自由度ν=n-2=16-2=14 ,查附表4,得P<0.001,按α= 0.05水准,拒绝H0,接受H1,差异有统计学意义,可认为2000年该地7岁男孩体重与胸围之间有相关关系总体相关系数ρ的区间估计*必须先对r 作z 变换 r z 1tanh-= 或 )1()1(ln21r r z -+=公式中tanh 为双曲(hyperbolic)正切函数;tanh -1为反双曲正切函数,r 的取值范围 -1<r <1,相应的z 值范围 -∞< z < +∞。

按正态近似原理,z 的1-α可信区间为:/2/2(3,3)z u n z u n αα--+-然后z r tanh = 或 1122+-=z ze e r ,将z 可信区间变换回到r 尺度。

决定系数的意义•决定系数即相关系数r 的平方r2–它反映应变量y 的总变异中可用回归关系解释的比例–反映回归直线的拟合程度,即回归方程估计可靠程度的高低。

取值范围在[ 0 , 1 ] 之间r 2 1,说明回归方程拟合的越好r 2 0,说明回归方程拟合的越差总回SS SS l l l l l lr yyxx xyyyxx xy===/222相关分析应用中应注意的问题一、散点图的重要性010********60020406080住院天数X预后指数Y二、变量取值非随机时莫作相关•某些医学问题研究中,一个变量随机变动,另一个变量的数值却是人为选定的。

–研究药物的剂量反应关系,人们选定n 种剂量,观察每种剂量下动物的反应;–摸索化学反应的适宜条件,人们选定几种温度,观察各温度下生成物的数量。

三、对相关的解释•相关分析中对变量的选择及统计结果的解释一定要结合专业背景,切不可把任意两个变量拉在一起盲目下结论。

•例如,某人喜得贵子,庭前种一小树,每月测子高与树高,计算发现子高与树高间的相关有统计意义(r=0.89),难道两者真有内在联系?•时间变量与两者的潜在联系造成了子高与树高相关的假象。

•即使专业上有理由作相关,两变量的地位也是平等的,所揭示的可能仅仅是一种统计学上的关联性,不一定是因果联系。

偶然联系:树高---身高(专业常识判断)伴随联系:兄弟身高因果联系:父子身高四、慎重合并分层资料第二节等级相关(秩相关,Spearman相关)一、适用条件不服从双变量正态分布而不宜作积差相关分析(Pearson相关)总体分布型未知开口型或半开口型的资料原始数据是用等级表示二、方法步骤•编秩、求秩次的差值d •计算等级相关系数:d 每对观察值x i ,y i 所对应的秩次之差 n 为对子数r s 样本秩相关系数)1(6122--=∑n n dr s表12-3 肝癌死亡率与黄曲霉毒素相对含量黄曲霉毒素相对含量肝癌死亡率(1/10万)d2d 乡编号(1) x(2)秩次(3)y(4)秩次(5) (6)=(3)-(5) (7)=(6)21 0.7 1 21.5 32 42 1.0 2 18.9 2 0 03 1.7 3 14.4 1 2 44 3.7 4 46.5 7 -3 95 4.0 5 27.3 4 1 16 5.1 6 64.6 9 -3 97 5.5 7 46.3 6 1 18 5.7 8 34.2 5 3 99 5.9 9 77.6 10 1 110 10.0 10 55.1 8 2 4 合计-----42746.0)110(1042612=-⨯⨯-=s r )1(6122--=∑n n dr ssr ()()()()32'33/6/62/62x y s x yn n T T d r n n T n n T --+-=----∑()∑-=12/3t t T T y x 或当x 或y 中相同秩次较多时,宜对进行校正:t 为x 或y 中相同秩次的个数是总体等级相关系数的估计值当时,可查界值表(p350)作出判断s r s ρ50≤n 1s z r n =-存在着抽样误差,故计算出后,需作是否为0的假设检验:当n >50时,可用正态近似法进行检验检验统计量z 的计算公式为:s ρs r s r补充例题407.0)112(125.40261)1(615.402122222=-⨯-=--===∑∑n n d r d n s相同秩次较多时r s 的校正当X 及Y 中,相同秩次均较多( 均超过n ×25%)时,用下式进行校正:式中,T x (或T Y )=Σ(t 3-t )/12;t :X (或Y )中相同秩次的个数()()()()32'33/6/62/62x y s x yn n T T d r n n T n n T --+-=----∑计算分析过程H 0:ρs =0,即血小板数与出血症状无相关关系H 1:ρs ≠0,即血小板数与出血症状有相关关系α=0.05分别依实测值X i ,Y i 从小到大编秩求每对数据秩次之差d因出血症状Y 中,相同秩次较多,需计算校正r`s 值T X =0T Y =Σ(t 3-t)/12=[(63-6)+(23-2)+( 23-2)]/12=18.5计算校正相关系数:依n=12,查r s 界值表,得0.10>P >0.05,按α=0.05 水准,不拒绝H 0,尚不能认为血小板数与出血症状有相关关系。

[][][]()[]()()[]()[]5095.05.1826/121206/12125.4025.1806/121226)(26)()(6)(3333323'=⨯-----+--=-----+--=∑Y X Y X s T n n T n n d T T n n r第三节列联表的关联性分析•【例12-4】某研究者欲研究幽门螺杆菌感染(HP)与家庭成员胃病史的关联性,随机抽取599例慢性胃炎或胃溃疡的患者,分成家庭成员有胃病史组和家庭成员无胃病史组,结果家庭成员有胃病史组182例,HP阳性125例;家庭成员无胃病史组417例,HP阳性198例。

相关主题