当前位置:文档之家› 直线相关分析与直线回归分析

直线相关分析与直线回归分析

(7)应排除样本的间杂性对相关性的误导。
(8)分层资料不宜盲目合并进行相关分析。若将分层资料合并进行分析, 可能会出现各层内均不相关而合并后出现相关的假象,也可能本来各层内两变 量均有相关而合并后掩盖了其真实的相关性。因此,进行相关分析时,如果不 能确定各层研究对象具有同质基础,不宜盲目合并。
27
两变量间的相关分析——等级相关分析
rs
1
6d 2 n(n2 1)
28
两变量间的相关分析——等级相关分析
等级相关分析的基本概念

rs'
(n3 n) / 6 (TX TY ) d 2 (n3 n) / 6 2TX (n3 n) / 6 2TY

u rs n 1
29
两变量间的相关分析——等级相关分析 数值变量资料的等级相关分析
——相关的方向
7
两变量间的相关分析——直线相关分析 两个相关关系的图示(散点图)
y x
8
两变量间的相关分析——直线相关分析 直线相关分析的资料要求
9
两变量间的相关分析——直线相关分析 相关系数(直线相关关系的测度)
用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标 , 称 为 相 关 系 数 ( correlation coefficient ) , 又 称 为 积 差 相 关 系 数 ( coefficient of product-moment correlation),Pearson相关系数 。
31
本例:
rs1
10
6 42 (10 2 1)

0.746
两变量间的相关分析——等级相关分析 数值变量资料的等级相关分析
该资料不服从 双变量正态分布 ,用等级相关分 析。
(2)对等级相关系数做假设检验
32
两变量间的相关分析——等级相关分析
双向有序R×C表资料的等级相关分析
10
两变量间的相关分析——直线相关分析 相关系数(直线相关关系的测度)
r X X Y Y lXY
X X 2 Y Y 2
lXX lYY
r

XY

(
X
)(Y
n
)
(
X
2

( X
n
)2
)(Y
2

(Y
n
)2
)
11
两变量间的相关分析——直线相关分析
例题3 观察依沙酰胺治疗皮肤真菌感染效果的临床试验结果见表3,试分析 该病的疗效是否与病程有关?
33
rs'
(n3 n) / 6 (TX TY ) d 2 (n3 n) / 6 2TX (n3 n) / 6 2TY
两变量间的相关分析——等级相关分析
双向有序R×C表资料的等级相关分析
)(Y
2

(Y
n
)2
)
r = 0.872
18
两变量间的相关分析——直线相关分析
相关分析的步骤
(3)相关系数的假设检验 :
也就是说,根据样本计算出的相关系数r ,是总体相关系数ρ的估计值。从ρ=0( 无直线相关)的总体中抽取样本,其r不 一定为0。因此,得到r≠0后,由于存在 抽样误差,则有必要检验r是否来自ρ=0 的总体,以判定两变量间是否有直线相 关关系。
19
r0 r0
两变量间的相关分析——直线相关分析 相关分析的步骤
(3)相关系数的假设检验 :
1) 建立假设,确定检验水准
2) 计算统计量
tr

r0 Sr

r ,v n2
1 r2
本例: tr
n2
0.8715 5.02 1 (0.8715)2
8
20
两变量间的相关分析——直线相关分析 相关分析的步骤
两变量间的相关分析与回归分析
1
两变量间的相关分析与回归分析
2
两变量间的相关分析与回归分析
3
两变量间的相关分析——直线相关分析 变量之间的关系
4
两变量间的相关分析——直线相关分析 相关关系与确定性关系的比较
5
两变量间的相关分析——直线相关分析 相关分析的基本概念
6
两变量间的相关分析——直线相关分析
等级相关分析的基本概念
前述的直线相关分析要求两变量来自双变量正态分布资料,当不能满足
此条件时,需用等级相关又称秩相关(rank correlation)来分析两变量间 的关系。等级相关属于非参数统计方法,常用的方法有Spearman秩相关 。它是用等级相关系数(rank correlation coefficient)来反映两变量间相 关关系的密切程度和方向的。
x x x
2


2
x
x x

y y y



y y y
2


f(x)
f(x,y)
x (单变量X量正态分布) 15
(双变量X,Y正态分布)
两变量间的相关分析——直线相关分析 相关分析的步骤
(6)作相关分析时,必须剔除异常点。异常点就是一些特大或特小的 离群值,相关系数的数值受这些点的影响较大,有此点时两变量相关,无 此点时可能就不相关了。所以,应及时复核检查,对由于测定、记录或计 算机录入的错误数据,应予以修正和剔除。
26
两变量间的相关分析——直线相关分析 直线相关分析中的注意事项
Spearman等级相关: Ho:总体等级相关系数等于0
rs'
(n3 n) / 6 (TX TY ) d 2 (n3 n) / 6 2TX (n3 n) / 6 2TY
H1:总体等级相关系数不等于0
α=0.0500(双侧)
对子数=435
差值平方和=8894802.0000, Tx=972115.0000, Ty=1421112.5000
反变换
r e2z 1 e2z 1
24
两变量间的相关分析——直线相关分析
直线相关分析中的注意事项
(1)在进行相关分析(Pearson相关)前,需作散点图,从散点图的趋 势判断是否可以作线性相关分析;
(2)样本相关系数与总体相关系数间存在抽样误差,所以求得样本 相关系数后应进行假设检验。
(3)相关关系是一种共变关系,不一定是因果关系;因此,有相关 关系不等于因果关系。有无因果关系还需结合专业知识进一步研究。
等级相关系数rs =0.3516, P=0.0000
等级相关系数rs′=0.2148, P=0.0000
结论:经检验,按α=0.0500水准拒绝Ho.
34
两变量间的回归分析——直线回归分析
“回归”一词的由来及其生物学意义
“回归”一词最早由Golton(戈尔顿)在一项有关父亲与儿子身高 的关系的研究中提出。儿子身高(Y)与父亲身高(X)自然是相关 的,他发现身材高大的父亲所生儿子的身高有不少要比父亲矮,而 身材矮小的父亲所生儿子的身高有不少要比父亲高。进一步研究表 明:虽然高个子的父亲常生高个子的儿子,但儿子身高超过父亲的 概率要小于比父亲矮的概率;同样,虽然矮个子的父亲常生矮个子 的儿子,但儿子身高比父亲更矮的概率要小于比父亲高的概率。也 就是说不可能无限制的一代比一代高,或一代比一代矮。后代的高 度有向人群中个体的平均高度“回归”的趋势;离开均值越远,所 受到回归的压力也越大。
35
两变量间的回归分析——直线回归分析 “回归”一词的由来及其生物学意义
无论是身材高还是身材矮的父亲所生儿子的身高都有向人群的平均身高 “回归”的趋势,这就是回归的生物学含义。后来人们借用“回归”这个 词 来 描 述 通 过 自 变 量 ( independent variable ) 的 数 值 预 测 因 变 量 ( dependent variable)的平均水平。即通过可测或易测的变量对未知或难测 或不可测变量的状态进行估计叫做回归分析(regression analysis)。
ρ
22
两变量间的相关分析——直线相关分析 相关分析的步骤
(4)总体相关系数ρ的可信区间估计 :
z tanh1 r 1 ln 1 r 2 1r
ρ
23
两变量间的相关分析——直线相关分析
相关分析的步骤
(4)总体相关系数ρ的可信区间估计 :

2 z

1 n3
z tanh1 r 1 ln 1 r 2 1r
直线相关分析的基本概念
当两个数值变量之间出现如下情况:当一个变量增大,另一 个也随之增大(或减少),我们称这种现象为共变,也就是有 相关关系。 若两个变量同时增加或减少,变化趋势是同向的,则两变量 之间的关系为正相关(positive correlation);若一个变量 增加时,另一个变量减少,变化趋势是反向的,则称为负相 关(negative correlation)。
例题2:在肝癌病因研究中,调查了某地10个乡的肝癌死亡率(1/10万)与 玉米中黄曲霉毒素相对含量,资料见下表。试作相关分析。

30
两变量间的相关分析——等级相关分析
数值变量资料的等级相关分析
该资料不服从 双变量正态分布 ,用等级相关分 析。
(1)求等级相关系数
rs
1
6d 2 n(n2 1)
血硒 y
20 15 10 5 0
0
发硒x 20 40 60 80 100 120
10名健康儿童发硒与血硒散点图
17
散点图呈直线趋势,可计算直线相关系 数,进行直线相关分析。
两变量间的相关分析——直线相关分析
相关分析的步骤
相关主题