当前位置:文档之家› 两指标间的相关分析

两指标间的相关分析


24名成年男女的心率(X)与收缩时间(Y)
男性 收缩时间 (毫秒) 405 393 397 400 380 383 376 382 388 366 370 345 女性 心率 (次/分) 56 59 63 67 67 68 70 72 75 79 87 94
收缩时间 (毫秒) 391 410 387 374 385 376 378 384 370 350 357 329
e 21.1789 1 e 22.6607 1 CL 21.1789 0.8271 , CU 22.6607 0.9903 e 1 e 1
的95%可信区间:0.8271~0.9903
例10.3
心率 (次/分) 57 61 63 66 67 68 69 70 75 79 83 86
察结果如下,试分析两种观察方法的结果有 无联系?
乙法 + - + 84 (a) 20 (c)
甲法
- 16(b) 80(d)
ad bc 84 80-16 20 rn (a b)(c d )(a c )(b d ) 100 100 104 96 0.6405
10.3.2 列联表的列联系数
相关系数的含义(了解)
r
X与Y的协方差 X的方差 Y的方差
相关系数的含义(了解)
协方差(covariance, COV):两个变量与其均值 离差乘积的平均数,是相互关系的一种度量。
样本协方差
S XY
( X X )(Y Y ) n 1
cm
XY
大 于
kg
X
(X
10名3岁男童体重与体表面积散点图
体 表 面 积
6.5
(103cm2)
Y
6.0
5.5
5.0 11 12 13 14 15 16
体重(kg),X
散点图的特点
总的趋势:体表面积随体重的增加而增加。
总的趋势:直线,无弯曲度。
部分观察点的分布有时并不反映这个总趋势,
甚至和总趋势相背离。
绝大部分散点分布在一条不太宽的倾斜的
标准差为 1 /
n3
的正态分布。
= - 0.8
=0
= 0.8
300
300
300
200
200
200
100
100
100
0
-1.0 -0.8 -0.6 -0.4 -0.2 0.0
0 -1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0
0 0 0.2 0.4 0.6 0.8 1.0
)(Y Y )
N
XY
(X
mm
kg
X
)(Y Y )
N
基本结论:协方差受计量单位影响, 从而不能真实反映相关的程度。
相关系数的含义(1)
X X Y Y X X Y Y
2
r
2

n 1 X与Y的协方差 共同的变异 X与Y的平均方差 平均的变异
Cramér修正列联系数 C :
C
2
n min(R 1, C 1)
R,C分别是列联表的行数和列数。2是列联 表的2检验。
0≤ rC ≤ 1
例10.5 两种血型系统的相关性
某人按两种血型系统统计某地6094人的血型 分布,结果见表10.5,问两种血型的分布间有无 关系? ABO MN血型 血型 M N MN 合计 O 431 490 902 1823 A 388 410 800 1598 B 495 587 950 2032 AB 137 179 325 641 合计 1451 1666 2977 6094
rC
χ 2 n m in(R 1 ,C 1 ) 8 .5952 6094 m in( 4 -1, 3 -1 )
0.0266
2为列联表的2。
列联系数的假设检验
等价于列联表的构成比的假设检验。
2 ( ad bc ) n 2 (a b)(a c )(b d )(c d )
零相关
r= 1 (b)
r=-1 (d)
r=0 (f)
r=0 (h)
相关系数的性质
-1 ≤ r ≤ 1
r>0为正相关
r<0为负相关
r=0为零相关或无相关
|r|=1为完全相关
|r|越大说明相关程度越密切
相关系数的正负
体 表 面 积
6.5ቤተ መጻሕፍቲ ባይዱ
(103cm2)
Y
6.0
5.5
5.0 11 12 13 14 15 16
X=是,则Y=是; X=否,则Y=否。 (父亲为异常基因的携带者除外。)
相关关系
当一个变量增大,另一个也随之增大(或
减少),我们称这种现象为共变,或相关 (correlation)。两个变量有共变现象,称为 有相关关系。 相关关系不一定是因果关系。
10.2 定量资料的相关
反映两定量指标间的线性相关关系用
X X Y Y n 1 X X Y Y
2 2
n 1
相关系数:协方差与两变量标准差乘积的比值, 是没有量纲的、标准化的协方差。
( X X )(Y Y ) S XY n1 r 2 2 S X SY ( X X ) ( Y Y ) n1 n1 ( X X )(Y Y ) 2 2 ( X X ) ( Y Y ) l XY l XX lYY
24名成年男女的心率(X)与收缩时间(Y)的散点图
450
450
收 缩 时 间 (毫秒)
400
400
350
350
300 50 60 70 80 90 100 心率(次/分)
300 50 60 70 80 90 100 心率(次/分)

男性
女性
24名成年男女的心率(X)与收缩时间(Y)的相关分析
男性
(1) 将 r 变换为 z ; (2) 根据 z 服从正态分布,估计Z的可信区间;
z u sz z u
(3) 再将 z 变换回 r 。
1 n3
相关系数的可信区间估计
Fisher’s 变换
r
z
正态近似
的95%CI
Fisher’s 反变换
Z的95%CI
例10.2 相关系数的可信区间
两指标间的关系分析
Linear correlation 线性相关
10.1 相关关系与确定性关系
确定性关系:两变量间的函数关系
圆的周长与半径的关系: C=2R 速度、时间与路程的关系:L=ST X与Y的函数关系: Y=a+bX
10.1 相关关系与确定性关系
R3 R R2 2 R1 R 1 1
体重(kg),X
例10.1资料相关系数的计算
X=13.44 Y 5.7266 l XX 24.9040 lYY 1.5439
l XY 5.9396
5.9396 r 0.9579 24.9040 1.5439
相关系数的假设检验
H 0:=0,体重与体表面积无相关关系; H 1:0,体重与体表面积有相关关系。 = 0.05。
u z1 z2 s z1 z2 1.3879 (1.5755 ) 1 1 12 3 12 3 0.3980
P=0.6906。 不拒绝H 0,尚不能认为男子和女子的心率与心脏左室 电机械收缩时间间的相关系数不等 。
10.3 定性资料的相关
配对四格表的Pearson点相关系数
列联系数(contingency coefficient)
10.3.1 四格表的列联系数
乙法 +
甲法 + -

a c
b d
ad bc rn (a b)(c d )(a c )(b d )
-1≤ rn ≤+1
例10.4 两种方法观察舌象结果的相关性
某中医师采用两种方法观察舌象200例,观
(a) r
(b ) r
(c)
r
1 1 r z ln 2 1 r
200 200 250 200 150 100
150
150
100 100
50
50
50 0 -2 -1 0 1 2
0 0 0.5 1.0 1.5 2.0
0
0
1
2
3
4
(d) z
( e)
z
(f) z
相关系数的可信区间估计
协方差
标准差
相关系数的含义(2)
X X Y Y r X X Y Y
2
2
XX 1 r n 1 sX
Y Y s Y

标准化离差
离均差平方和、离均差积和的展开:
l XX
lYY
Y Y Y Y n
t
r 0 sr

r 1 r2 n2
t 服从自由度为n-2的 t 分布。
例10.1资料相关系数的假设检验
t r 1 r n2
2

0.9579 1 0.9579 10 2
2
9.4369
自由度=10-2,P<0.001
拒绝H0,接受H1。
可以认为3岁男童体重与体表面积之间 有正相关关系。
2 S2 R2 3.14 1.52 7.07(cm) 2 S3 R3 3.14 22 12.56(cm)
S1 R12 3.14 12 3.14(cm)
10.1 相关关系与确定性关系
相关主题