简单线性相关和回归分析课件
6
7
8
SPSS输出结果:
Correlations
尿 雌 三 醇 ( mg/24h ) Pearson Correlation
尿雌 三醇 ( mg/24h )
1
产 儿 体 重 (kg) .610**
产 儿 体 重 (kg)
Sig. (2-tailed) N Pearson Correlation
15
身高作为控制变量,肺活量与体重的偏相关系数
Correlations
Control Variables
身高
体重
肺活量
Co rre l a ti o n Significance (2-tailed) df Co rre l a ti o n Significance (2-tailed) df
体重 1.000 . 0 .569 .002 26
体重
肺活 量
1
.751**
肺活 量
Sig. (2-tailed) N Pearson Correlation
29 .751**
.000 29 1
Sig. (2-tailed) N
.000
29
29
**. Correlation is significant at the 0.01 level (2 -ta i l ed ).
19
a称为截距(intercept),表示X取值为0时Y的 平均水平。
b称为回归系数(regression coefficient)或直 线的斜率(slope),表示X每变化一个单位时, Y平均改变b个单位。
b>0时,随X的增大而增大; b<0时,随X的增大而减小; b=0时,直线与X轴平行,Y与X无直线关系
尿雌三醇 mg/24h (2)
17 25 27 15 15 15 16 19 18 17 18 20 22 25 24
16
16
3.2
资料来源:Rosnser B: Fundamentals of Biostatistics P.364, Duxbury Press, 1982
产儿体重 kg
(3) 3.2 3.2 3.4 3.4 3.4 3.5 3.5 3.4 3.5 3.6 3.7 3.8 4.0 3.9 4.3
22
( X X )(Y Y) =1750-
534 99.2 31
=41.20
X X 2 9876 5342 677.42 31
b
( X X )(Y Y )
(X
X
2
)
41.20 677 .42
0.061
23
Y 99.2
Y
3.2
n
31
X
534
X
17.23
n
31
a Y b X 3.2 0.061 17.23 2.15
尿雌三醇 mg/24h (2)
7 9 9 12 14 16 16 14 16 16 17 19 21 24 15
产儿体重 kg
(3) 2.5 2.5 2.5 2.7 2.7 2.7 2.4 3.0 3.0 3.1 3.0 3.1 3.0 2.8 3.2
编号 (1)
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
13
SPSS操作步骤:
Analyze-----Correlation-----Partial 把分析变量选入 Variable 框 把控制变量选入 Controlling for 框 Continue OK
14
体重与肺活量的简单相关系数
Correlations
体重
Pearson Correlation
一般说来,当样本量较大(n>100),并对 r进行假设检验,有统计学意义时,r的绝对值大 于0.7,则表示两个变量高度相关;r的绝对值大 于0.4,小于等于0.7时,则表示两个变量之间中 度相关;r的绝对值小于等于0.4时,则两个变量 低度相关。
10
应用线性相关时要注意:
1.相关系数接近于零时并不意味着两变量一 定不相关,也可能存在非线性相关。
b. Dep enden t Vari able: 产 儿 体 重 (kg)
F 17.162
Si g. .000a
Coefficientsa
Un stan d ard i ze d Co effi ci e nts
M od e l
1
(Constant)
尿 雌 三 醇 ( mg/24h )
B 2.152
1. 意义 相关反映两变量的相互关系,即在两个变
量中,任何一个的变化都会引起另一个的 变化,是一种双向变化的关系。
回归是反映两个变量的依存关系,一个变 量的改变会引起另一个变量的变化,是一 种单向的关系。
45
2. 相关系数r与回归系数b r与b的绝对值反映的意义不同。
r的绝对值越大,散点图中的点越趋向于一 条直线,表明两变量的关系越密切,相关 程度越高。
tb
b
sb
sb s lxx
s
(Y Yˆ)2
SS残
n2
n2
自由度=n-2
31
例1: H0:β=0 H1:β≠0 α=0.05
sb 0.015
tb 0.061 4.14 0.015
自由度=31-2=29,查t界值表,t0.05(29)=2.045, P<0.05,按=0.05检验水准,拒绝H0,接受 H1,认 为待产妇24小时尿中雌三醇含量与产儿体重之间存 在直线回归关系。
22
15
16
2.4
23
16
14
3.0
24
19
16
3.0
25
18
16
3.1
26
17
17
3.0
27
18
19
3.1
28
20
21
3.0
29
22
24
2.8
30
25
15
3.2
31
24
16
3.2
产儿体重 (kg) (3)
3.2 3.2 3.4 3.4
3.4 3.5 3.5 3.4 3.5 3.6 3.7 3.8 4.0 3.9 4.3
42
3. 利用散点图 对于性质不明确的两组数据,可先做散点
图,在图上看它们有无关系、关系的密切 程度、是正相关还是负相关,然后再进行 相关回归分析。
43
4. 变量范围 相关分析和回归方程仅适用于样本的原
始数据范围之内,出了这个范围,我们不 能得出两变量的相关关系和回归关系。
44
(二)相关与回归的区别
3
产 4.5 儿 体 重 4.0
3.5
3.0
2.5
2.0 0
10
20
30
雌三醇
产妇尿雌三醇含量与产儿出生体重的散点图
4
5
利用SPSS统计软件实现线性相关:
AnalyzeCorrelationBivariateBivaria te correlation 在弹出的对话框中同时选中待分析的 两个变量,在Correlation Coefficients项 目下选中“Pearson”即可。
SS总称为Y的总离均差平方和
SS回称为回归平方和
SS残称为残差平方和或剩余平方和
28
不考虑回归时,Y的总变异SS总全部视为随 机误差;而回归以后,回归的贡献使得随机 误差减小为SS剩。如果两变量间总体回归关 系确实存在,回归的贡献就应当大于随机误 差;大到何种程度时可以认为具有统计意义, 可计算如下的F统计量:
肺活量 .569 .002 26
1.000 . 0
16
线性回归
17
第一节 简单直线回归
18
一、简单直线回归方程
简单直线回归(linear regression)是用来描述一 个变量依赖于另一个变量的线性关系。
Yˆ a bX
这里两变量的地位是不同的,其中X为自 变量,可随机变动亦可人为取值;而Y被 视为依赖于X而变化的因变量。
^
Y a bX 2.15 0.061X
24
三、回归系数的假设检验
与直线相关一样,直线回归方程也是从样 本资料计算而得的,同样也存在抽样误差 问题。所以,需要对样本的回归系数b进行 假设检验,以判断b是否从回归系数为零的 总体中抽得。
总体的回归系数一般用β表示。
25
回归系数的检验方法有两种: (1) 方差分析 2)t检验 两种方法是等价的。
简单线性相关
北京大学公共卫生学院 妇女与儿童青少年卫生学系
周虹
1
例: 一个产科医师发现孕妇尿中雌三醇 含量与产儿的体重有关。因此收集了31例 待产妇24小时的尿,测量其中的雌三醇含 量,同时记录产儿的体重,结果见下表。 问尿中雌三醇含量与产儿体重之间相关系 数是多少?是正相关还是负相关?
2
编号 (1)
29
F SS回 /回 MS回 SS残 / 残 MS残
自由度分别是:ν回=1,ν残=n-2
MS回与MS残分别称为回归均方和残差均方。 求得F值后查F界值表得到P值,最后按所取水
准作出总体回归关系是否成立的推断结论。
30
(2)t检验:
H0:β=0 H1:β≠0 α=0.05
统计量t的计算公式为:
32
对于一元线性回归来说,方差分析与t 检验是完全等价的,且有关系式:
t F
33
利用SPSS实现直线回归:
SPSS操作步骤: Analyze --- Regression --- Linear
dependent: 因变量 independent: 自变量 method: 可选择 enter