两指标间的相关分析
体 表 面 积 6.5
6.0
Y
(103cm2)
5.5
5.0 11 12 13 14 15 16
体重(kg),X
例10.1资料相关系数的计算
X=13.44 = l XX = 24.9040
Y = 5.7266 lYY = 1.5439
l XY = 5.9396
5.9396 r= = 0.9579 24.9040 × 1.5439
n
2
lYY
(∑Y ) = ∑ (Y − Y ) = ∑ Y − n
2 2
2
l XY
(∑ X )(∑ Y ) = ∑ (X − X )(Y − Y ) = ∑ XY −
n
相关关系示意图
正相关 负相关 零相关 零相关
0<r<1 (a) 完全正相关
-1<r<0 (c) 完全负相关
r≈0 (e) 零相关
r≈0 (g) 零相关
ρ 的95%可信区间:0.8271~0.9903 ~
例10.3
心率 (次/分) 57 61 63 66 67 68 69 70 75 79 83 86
24名成年男女的心率(X)与收缩时间(Y)
男性 收缩时间 (毫秒) 405 393 397 400 380 383 376 382 388 366 370 345 女性 心率 (次/分) 56 59 63 67 67 68 70 72 75 79 87 94
相关系数的假设检验
H 0:ρ=0,体重与体表面积无相关关系; H 1:ρ≠0,体重与体表面积有相关关系。 α = 0.05。
t=
r −0 sr
=
r 1− r2 n−2
t 服从自由度为n-2的 t 分布。
例10.1资料相关系数的假设检验
t= r 1− r n−2
2
=
0.9579 1 − 0.9579 10 − 2
P=0.6906。 不拒绝H 0,尚不能认为男子和女子的心率与心脏左室 电机械收缩时间间的相关系数不等 。
10.3 定性资料的相关
配对四格表的Pearson点相关系数 列联系数(contingency coefficient)
10.3.1 四格表的列联系数
乙法 + - 甲法 + -
a c
b d
ad − bc rn = (a + b)(c + d )(a + c )(b + d )
1 sz = = 0.3780 10 − 3
则 Z 的95%可信区间: 1.9198±1.96×0.3780 = (1.1789,2.6607)
例10.2 相关系数的可信区间
ρ 的95%可信限为:
e 2×1.1789 − 1 e 2×2.6607 − 1 C L = 2×1.1789 = 0.8271 , CU = 2×2.6607 = 0.9903 e +1 e +1
两相关系数的比较
H 0:男子心率与心脏左室电机械收缩时间的相关与 女子的相等,ρ1=ρ2; H 1:男子心率与心脏左室电机械收缩时间的相关与 女子的不等,ρ1≠ρ2。 α = 0.10。
u= z1 − z 2 s z1 −z2 = − 1.3879 − ( −1.5755) 1 1 + 12 − 3 12 − 3 = 0.3980
2
= 9.4369
自由度=10-2,P<0.001 拒绝H0,接受H1。 可以认为3岁男童体重与体表面积之间 有正相关关系。
总体相关系数ρ的区间估计
ρ =0:r的分布是对称的 : 的分布是对称的 ρ ≠0:r呈偏态分布 : 呈偏态分布 ρ >0:r呈负偏态分布 : 呈负偏态分布 ρ <0:r呈正偏态分布 : 呈正偏态分布
r=1 (b)
r=-1 (d)
r=0 (f)
r=0 (h)
相关系数的性质
-1 ≤ r ≤ 1 r>0为正相关 > 为正相关 r<0为负相关 < 为负相关 r=0为零相关或无相关 = 为零相关或无相关 |r|=1为完全相关 为完全相关 |r|越大说明相关程度越密切 越大说明相关程度越密切
相关系数的正负
R.A. Fisher(1921) 的 z 变换
1 1+ r z = ln 2 1− r e −1 r = 2z e +1
2z
z 近似服从均数为
标准差为 1 /
n−3
1 2
ln[(1 + r ) /(1 − r )] ,
的正态分布。
ρ = - 0.8
ρ=0
ρ = 0.8
300
300
z ± uα s z = z ± uα
(3) 再将 z 变换回 r 。
1 n−3
相关系数的可信区间估计
Fisher’s 变换
r
z
正态近似
ρ的95%CI
Fisher’s 反变换
Z的95%CI
例10.2 相关系数的可信区间
r=0.9579,
1 1 + 0.9579 z = ln( ) = 1.9198 2 1 − 0.9579
rC =
χ 2 n ⋅ min (R − 1 ,C − 1 )
( X − X )(Y − Y ) ∑ S XY n−1 r= = S X SY ( X − X )2 ∑ (Y − Y )2 ∑ n−1 n−1 ∑ ( X − X )(Y − Y ) = ( X − X )2 ∑ (Y − Y )2 ∑ = l XY l XX lYY
协方差
标准差
相关系数的含义(2)
(X − X ) (Y − Y ) r =∑ ∑ (X − X ) ∑ (Y − Y )
2
2
X−X 1 r= ∑ s n −1 X
Y − Y s Y
标准化离差
离均差平方和、离均差积和的展开:
l XX = ∑ X − X
(
) =∑X
2
2
(∑ X ) −
300
200
200
200
100
100
100
0 -1.0 -0.8 -0.6 -0.4 -0.2 0.0
0 -1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0
0 0 0.2 0.4 0.6 0.8 1.0
(a) r
(b) r
(c)
r
z=
1 1+ r ln 2 1− r
当一个变量增大,另一个也随之增大(或 减少),我们称这种现象为共变,或相关 (correlation)。两个变量有共变现象,称为 有相关关系。 相关关系不一定是因果关系。
10.2 定量资料的相关
反映两定量指标间的线性相关关系用 Pearson 相关系数。 (Pearson correlation coefficient)
两指标间的关系分析
Linear correlation 线性相关
10.1 相关关系与确定性关系
确定性关系:两变量间的函数关系
圆的周长与半径的关系: C=2πR 速度、时间与路程的关系:L=ST X与Y的函数关系: Y=a+bX
10.1 相关关系与确定性关系
R3 R2 R2 R1 R11
2 S2 = π R2 = 3.14 × 1.52 = 7.07(cm ) 2 S 3 = π R3 = 3.14 × 22 = 12.56( cm )
相关关系与确定性关系(2)
当对事物的规律了解加深时,相关关系 可以转变为确定性关系。
父亲患白化病X, (X=是,否); 子女患白化病Y, (Y=是,否); X与Y的关系不确定。 当母亲患白化病时,X与Y的关系确定: X=是,则Y=是; X=否,则Y=否。 (父亲为异常基因的携带者除外。)
相关关系
Pearson相关系数的计算
r=
∑ (X − X )(Y − Y ) ∑ (X − X ) ∑ (Y − Y )
2
2
l XY = l XX lYY
X 的离均差平方和: Y 的离均差平方和:
l XX = ∑ X − X
(
)
2
lYY = ∑ Y − Y
X与Y 间的离均差积和: l XY
( ) = ∑ (X − X )(Y − Y )
n −1
cm
σ XY
大 于
kg
X
∑(X − µ =
mm
)(Y − µY )
N
kg
X
σ XY
∑(X − µ =
)(Y − µY )
N
基本结论:协方差受计量单位影响, 基本结论:协方差受计量单位影响, 从而不能真实反映相关的程度。 不能真实反映相关的程度 从而不能真实反映相关的程度。
相关系数的含义(1)
2
相关系数的含义(了解) (了解)
r=
X与Y的协方差 X的方差 × Y的方差
相关系数的含义(了解) (了解)
协方差(covariance, COV):两个变量与其均值 : 离差乘积的平均数,是相互关系的一种度量。 离差乘积的平均数,是相互关系的一种度量。
样本协方差
S XY
∑ ( X − X )(Y − Y ) =
收缩时间 (毫秒) 391 410 387 374 385 376 378 384 370 350 357 329
24名成年男女的心率(X)与收缩时间(Y)的散点图
450
450
收 缩 时 间 (毫秒)
400
400
350
350
300 50 60 70 80 90 100 心率(次 分 心率 次/分)
例10.1 10名3岁男童体重与体表面积的关系
编号 体重(X,kg) 体表面积(Y,103cm2) 1 11.0 5.283 2 11.8 5.299 3 12.0 5.358 4 12.3 5.292 5 13.1 5.602 6 13.7 6.014 7 14.4 5.830 8 14.9 6.102 9 15.2 6.075 10 16.0 6.411 57.266 合计 134.4