当前位置:文档之家› 《双变量关联性分析》PPT课件

《双变量关联性分析》PPT课件


4
4.5
体重指数
图13-1 16名中年女性体重指数和收缩压的散点图
实例
某地方病研究所调查了 8名正常儿童的尿肌 酐含量(mmol/24h)如表9-1。估计尿肌酐含
量(Y)对其年龄(X)的相关关系。

编号
表14-1 8名正常儿童的年龄 X(岁)与尿肌酐含
Y(mmol/24h)
1
2
3
4
5
6
7
8
年龄X
13 11 9 6
两个随机变量 X 和 Y ,可以是对同一观察单位同时 测量 X 与 Y 的数值,也可以是测量成对观察单位的 同一变量或不同变量的数值,而产生一对观察值。
2020/11/20
6
直线相关(linear correlation) 又称简单相关(simple correlation)或 Pearson 相关
分析,用于研究具有直线关系的两个变量间相关关系的密切程度与 相关方向的一种统计分析方法,用于双变量正态分布资料(要求两个 变量均服从正态分布)
在线性相关分析中,两个变量X 和Y的值总是成对的出现,记为(X1, Y1)、(X2,Y2)…(Xn,Yn),这些观察值在直角坐标系中形成一 幅散点图,这种散点图可以简单而直观的表示两变量间的线性关系
实例
例如 为研究中年女性体重指数和收缩压之间的关系,随机测量 了16名40岁以上的女性的体重指数和收缩压,见表13-1,试绘制 散点图。
1. 解:以体重指数为变量X,收缩压为变量Y作散点图,见下图。可见, 体重指数与收缩压有比较密切的线性相关关系。
25
收缩压(kpa)
20
15
102.533.5研究具有直线关系的两个变量间相关关系的密切 程度与相关方向的一种统计分析方法
➢ 应用条件
要求两个变量均服从正态分布 (双变量正态分布 )
2020/11/20
14
➢ 相关系数的意义及计算
又称积差相关系数或Pearson相关系 数,说明具有直线关系的两个变量间相关关系的 密切程度与相关方向的指标
r 表示样本相关系数,ρ表示总体相关系数
相关系数, -1≤ r ≤1
r 的计算结果说明了两个变量X与Y之 间关联的密切程度(绝对值大小)与关联 的性质或方向(正负号)。
相关分析的目的在于通过相关系数r来描述 和度量两变量线性联系的程度和方向。 r>0 正相关 r<0 负相关 r=0 零相关 零相关即两变量间无关。
样本相关系数不等于零,并不表示总体相 关系数不等于零,还要作显著性检验。
第 十 二 章
2020/11/20
广东医学院公共卫生学院 流行病与统计学教研室
1
第一节 直线相关
2020/11/20
2
一 直线相关 Linear correlation
医学上许多现象之间都有相互联 系,例如:身高与体重、体温与脉搏、产前 检查与婴儿体重、乙肝病毒与乙肝等。在这 些有关系的现象中,它们之间联系的程度和 性质也各不相同。这里,体温和脉搏的关系 就比产前检查与婴儿体重之间的关系密切得 多,而体重和身高的关系则介与二者之间。
8 10 12 7
尿肌酐含量 Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65
尿肌酐含量(mmol/24h)Y
3.6 3.4 3.2 3.0 2.8 2.6 2.4
4
(X,Y )
6
8
10
12
14
年龄(岁)X
图14-1 8名儿童的年龄与尿肌酐含量散点图
一、概述
➢ 概念 又称简单相关或Pearson相关分析,用于
8
7 2.65 49 7.02 18.55
合计
76 23.87 764 72.27 232.61
SX SY SX2 SY2 SXY
lXX
( X)2 X2
n
lYY
Y 2 ( Y)2 n
【例12-1】2000年测得某地16名7岁男孩体重与胸围资料,见表12-1。
表12-1 2000年某地16名7岁男孩体重与胸围资料
在大量的医学问题研究中常常还要分析两个随机 变量之间的关系,如体重与肺活量、年龄与血压 之间是否存在线性联系,此联系是正向还是负向 以及联系的程度如何?
2020/11/20
5
如果两个连续型变量 X和 Y 都随机变动且不分主次, 可通过线性相关(linear correlation)分析来估计 它们之间可能存在的线性联系的方向与程度。
1
13 3.54 169 12.53 46.02
2
11 3.01 121 9.06 33.11
3
9 3.09 81 9.55 27.81
4
6 2.48 36 6.15 14.88
5
8 2.56 64 6.55 20.48
6
10 3.36 100 11.29 33.60
7
12 3.18 144 10.11 38.16
相关与回归就是用于研究和解释两个变 量之间相互关系的。
相关分析用于分析两变量间相互联系的 密切程度及相关方向。回归分析适用于分析变 量间的依存关系;用一个自变量的值来估计另 一个应变量的值。
前面描述性统计及假设检验只涉及到一个变量, 如体重、红细胞数、血压下降值等,着重于描述某 一变量的统计特征或比较该变量的组间差别。
21
相关系数的计算:
X和Y的离均差积和
x xy y xy x y n
X的离均差平方和
x x2 x2 x2 n
y的离均差平方和
y y2 y2 y2 n
其中,
l xx
方和
lYY
l XY
均差平方和
为X 的离均差平 为Y 的离 为X和Y 的
编号 年龄X 肌酐Y X2 Y2
XY
相关关系图示
2020/11/20
19
r无单位, -1 ≤ r ≤ 1 r 值为正 ——正相关 r 值为负 ——负相关 |r|=1 --- 完全相关 r=0 --- 零相关
2020/11/20
20
➢ 相关关系密切程度的判断
r 0.4
低度相关
中度相关
0.4 r 0.7
r 0.7
高度相关
2020/11/20
2020/11/20
15
r x x y y lxy x x 2 y y 2 lxxlyy
没有单位,取值介于-1与1之间 相关方向用正负号表示 相关的密切程度用绝对值表示
2020/11/20
16
相关系数,说明具有直线关系的两个变 量间相关关系的密切程度与相关方向的
指标. r 表示样本相关系数,ρ表示总体
相关主题