当前位置:
文档之家› 第十一章+两变量的关联性分析
第十一章+两变量的关联性分析
2
3
4
…… n
-
本章主要内容
一、线性相关(服从二元正态分布的数值 变量间资料)
二、秩相关(不服从上述条件的数值变量 间或有序分类变量间)
三、分类变量的关联性分析(无序分类变 量间)
-
第一节 线性相关(linear correlation)
线性相关分析是研究具有线性关系的两变量间 相互关系的密切程度及相关方向。
表示两变量间相关关系密切程度越高
-
直线相关分析例题:
例11—1 随机抽取15名健康成人,测定血液的 凝血酶浓度(单位/ml)及凝固时间,数据如下 表,试判断这两项指标间有否相关?
15 例健康成人凝血酶浓度与凝血时间测量值结果
受试号
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
通过计算变量间的线性相关系数来反映。 要进行线性相关分析,确定相关变量之间的关
系,首先应该收集一些数据,这些数据应该是 成对的。例如,每人的身高和体重。然后在直 角坐标系上描述这些点,绘制散点图 (scatter plot)
-
根据散点图可初步判断变量间是否有线性 相关
-
Pearson积差相关系数的意义及计算
第十一章
-
医学现象中的关联性
医学上,许多现象之间都有相互联系,例如: 身高与体重、体温与脉搏、父母身高与儿子身 高等。在这些有关系的现象中,它们之间联系 的程度和性质也各不相同。
如何衡量这些变量间的关系?
-
两变量(Bivariate)间的关系
函数关系及相关与回归关系 1、函数关系(确定性关系):两变量间
秩次 (3)
1 2 3 4 5 6 7 8 9 10 11 12 78
p2 (4)
1 4 9 16 25 36 49 68 81 100 121 144 650
出血症状y (5)
+++ ++ + ++ ++ +++ —
秩次 (6)
11.5 9.0 7.0 3.5 9.0 9.0 3.5 3.5 3.5 3.5 11.5 3.5 78
(xx)2(yy)2
xyxny
[x2
(nx)2][y2
(y)2] n
-
相关系数的意义
相关系数r取值范围为一l≤r≤1。 两变量相关的方向用r的正负号表示,即r>0表
示正相关。r<0表示负相关;r=0表示零相关。 相关系数r的大小表示密切程度。r=±1表示完
全相关,r=0表示无直线相关。 样本含量n相等且较大时,r绝对值越接近1,
相关系数(correlation coefficient)是说明具 有线性关系的两变量间相关方向与密切程度的 统计指标。 相关系 数x和y的协方差 (x的方)差 (y的方)差
总体相关系数用ρ表示,样本相关系数用r表示。 协方差是两变量离均差乘积的平均
-
实际工作中,我们是用样本相关系数来 估计总体相关系数。 这就需要从研究总体中抽取一份随机样 本,计算样本相关系数r。
n2
102
根据 ν=15-2=14,查 t界值表,得 P<0.001,按 a=0.05水准,拒绝 H0,接受H1,可认为两变量间有 线性相关关系。
查表法:
求得r后,按 v=n-2,查相关系数r界值表,
以r=0.926,v=14,查r界值表,得 P<0.001
-
线性相关应用中应注意问题
1、进行相关分析前,应先绘制散点图。样本相关系 数接近零并不意味着两变量间一定无相关性。
问题:我们能否得出结论说明凝血酶浓度与凝 血时间呈负相关,相关系数是-0.926。为什么?
-
相关系数的统计推断
1、进行相关系数的假设检验 H0:p=0,即两变量无线性相关关系 H1:p≠0,即两变量有线性相关关系 α=0.05
-
tr检验: tr
r 1r2
0.926 8.874 1(0.92)26
-
例11—4某地研究2~7岁急性白血病患 儿的血小板数与出血症状程度间的相关性,
结果如下表,试进行相关分析。
病人编号 (1)
1 2 3 4 5 6 7 8 9 10 11 12 合计
血小板数x (2)
121 138 165 310 426 540 740 1060 1260 1290 1438 2004 —
凝血酶浓度 1.1 1.2 1.0 0.9 1.2 1.1 0.9 0.6 1.0 0.9 1.1 0.9 凝血时间 14 13 15 15 13 14 16 17 14 16 15 16 14 15 17
y(秒)
-
1、绘制散点图,观察两变量间是否可能存 在直线关系
-
样本协方差的计算
n
(xx)2
x的样本方 i差 1 n1
n
(yy)2
y的样本方 i差 1 n1
n
(xx)(yy)
x和 y的样本协 i1 方差 n1
-
样本相关系数计算公式
不同问题的协方差不便于比较,故对x和y进行标 准化后再计算协方差,即得相关系数
r l xy
(xx)(yy)
l xx l yy
凝血时间(秒)
18
17
16
15
14
13
12
0.5
0.7
0.9
1.1
1.3
凝血酶浓度(ml)
-
2、计算相关系数 ∑x=14.7 ∑x2=14.81 ∑y =224 ∑y2=3368 ∑xy =216.7
-
rlxy
2.7 1 (1 6.7 ) 42 ()2 /14 5 0 .926
lxx lyy [1.8 4 ( 1 1.7 ) 4 2/1] 5 [33 (2 6)2 2 8 /14 ]5
呈一一对应的关系。 2、相关关系与回归关系(非确定性关
系):两变量间数量上存在联系,但非 一一对应关系。如年龄与血压,儿童年 龄与体重等。
-
相关分析所用的样本数据应是来自研 究总体的一份随机样本。
总体 随机抽取
样本
观察此样本中每个 观察个体(对象) 的两个变量间是否
有关联
随机样本数据结构
序号 X变量 Y变量 1
2、分析资料要求X、Y两变量都是来自正态总体的随 机变量。 (如果不满足正态分布条件,用秩相关)
3、出现异常值时慎用。(如图11—3中a所示) 4、用相关未必真有内在联系。 5、分层资料盲目合并易出假象。
(如图11—3中b、c、d所示)
-
第二节 秩相关(rank correlation)
适用于: 1、不服从双变量正态分布的资料 2、总体分布形式未知的资料 3、等级资料(故又称等级相关) 常用方法:Spearman秩相关