第八章 双变量回归与相关
按公式(9-21)z 的 95%可信区间为 (1.3838-1.96/ 8 3 ,1.3838+1.96/ 8 3 ) =(0.5073,3.2749)
再按公式(9-22)将z作反变换,得到年龄与尿肌酐含 量的总体相关系数95%可信区间为(0.4678,0.9971)。
102
14
四、决定系数(coefficient of determination)
第二节 直线回归
102
22
一、直线回归的概念
目的:研究应变量Y对自变量X的数量依 存关系。 特点:统计关系。 X值和Y的均数的关系, 不同于一般数学上的X 和Y的函数
关系。
102 23
例9-1
某地方病研究所调查了8名正常儿童的尿
肌酐含量( mmol/24h )如表9-1 。估计尿肌酐含量( Y )
102 11
(二)总体相关系数的可信区间
不等于零时呈偏态分布 由于相关系数的抽样分布在 的可信区间需要先将其进行 (大样本情况下亦如此) , 所以 某种变量变换, 使之服从正态分布, 然后再估计其可信区间。
102
12
具体步骤如下
1.首先对 r 作如下 z 变换
z tanh r 或
1
102 17
例如当样本足够大时,身高 Y 与家庭中的每月用电量 X 的线性回归关系具有统计学意义(回归系数的假设检验
P 0.05 ) ,但这种结果很难说有什么专业上可解释的实际
意义。 同理,相关系数的假设检验只是在冒一定风险情况下 说明 0 ,总体中仍然可能是 0.01, 0.04 等,这种 相关并不一定在专业上有意义。
估计方法。
102
19
3.资料的要求
直线相关分析要求 X与Y 服从双变量正态分布;
直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,
X可以是服从正态分布的随机变量也可以是能精确测量和严格 控制的非随机变量; * 对于双变量正态分布资料,根据研究目的可选择由 X 估 计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同)。
ˆ Y
计值, 称为回归方程的预测值 (predicted value) , 而 、b 分别为 和 的样本估计。
102 34
a
例9-1
某地方病研究所调查了8名正
常儿童的尿肌酐含量(mmol/24h)如表9-1。
估计尿肌酐含量(Y)对其年龄(X)的回
归方程。
102
35
表9-1 8名正常儿童的年龄 X(岁)与尿肌酐含量 Y(mmol/24h)
102
16
1.根据分析目的选择变量及统计方法
直线相关用于说明两变量之间直线关系的方向和密切程度,
X与Y没有主次之分; 直线回归则进一步地用于定量刻画应变量 Y对自变量X在数
值上的依存关系,其中应变量的定夺主要依专业要求而定,可
以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例 如用身高估计体表面积。 两个变量的选择一定要结合专业背景,不能把毫无关联的 两种现象勉强作回归或相关分析。
3.对上一步计算出的 z 的上下限作如下变换,得到 r 1 的
可信区间
r tanh( z )
或
e2z 1 r 2z e 1
102
(9-22) 13
例9-7 对例9-5所得r值,估计总体相
关系数的95%可信区间。
1 z tanh 0.8818 1.3838 按公式(9-20)
102
20
4.结果解释及正确应用
反应两变量关系密切程度或数量上影响大小的统 计量应该是回归系数或相关系数的绝对值,而不是 假设检验的P值。
P 值越小只能说越有理由认为变量间的直线关系
存在,而不能说关系越密切或越“显著”。另外,
直线回归用于预测时,其适用范围一般不应超出样
本中自变量的取值范围。
102 21
(23.87) 2 72.2683 1.0462 8
lXY XY
( X )(Y ) n
(76)(23.87) 232.61 5.8450 8 102
38
4.求回归系数 b 和截距 a
l XY 5.8450 b 0.1392 l XX 42
a Y bX 2.9838 (0.1392)(9.5) 1.6617
102
ˆ 为各X处Y的总体均数的估计。即Y Y
29
1.a 为回归直线在 Y 轴上的截距。
a > 0 ,表示直线与 纵轴的交点在原点的 上方; a < 0 ,则交点在原 点的下方;
Y a<0
a=0 a>0
a = 0 ,则回归直线 通过原点。
0
X
102
30
2. b为回归系数,即直线的斜率。
b>0,直线从左下方走向 右上方, Y 随 X 增大而 增大; b <0 ,直线从左上方走 向右下方, Y 随 X 增大 而减小; b=0,表示直线与 X 轴 平行,X 与Y 无直线关系。
定义为回归平方和与总平方和之比,计算公 式为:
2 2 SS l l l 2 回 R XY XX XY SS总 lYY l XX lYY
(9-2பைடு நூலகம்)
R 取值在0到1之间且无单位,其数值大 小反映了回归贡献的相对程度,也就是在Y的 总变异中回归关系所能解释的百分比。
102
2
15
五、直线相关与回归应用的注意事项
上,此与两变量间严格的直线函数关系不同,称为直线 回归(linear regression),其方程叫直线回归方程,
以区别严格意义的直线方程。
双变量直线回归是回归分析中最基本、最简单的
一种,故又称简单回归。
102
28
直线回归方程的一般表达式为
ˆ Y a bX
(9 1)
的估计值,也读作Y hat 。
差平方和l XX 、 lYY 与离均差积和 l XY 。
102 37
3.计算有关指标
X X n 76 9.5 8
Y 23.87 Y 2.9838 n 8
l XX X 2 ( X ) n
2
(76) 2 764 42 8
lYY
Y
2
( Y ) 2 n
对其年龄(X)的回归方程。
102
24
表9-1 8名正常儿童的年龄 X(岁)与尿肌酐含量 Y(mmol/24h)
编 号 年龄 X
1 13
2 11
3 9
4 6
5 8
6 10
7 12
8 7
尿肌酐含量 Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65
102
25
102
26
在定量描述儿童年龄与其尿肌酐含量 数量上的依存关系时,将年龄称为自变量
(independent variable),用 X 表示;尿肌
酐含量称为应变量 (dependent variable) ,
用 Y 表示。
102
27
由图9-1可见,尿肌酐含量 Y 随年龄 X 增加而
增大且呈直线趋势,但并非8个点子恰好全都在一直线
Y b>0
b=0
0
b<0 X
b 的统计学意义是:X 每增加(减)一个单位,Y 平均 改变b个单位。
102 31
二、直线回归方程的求法
残 差 (residual) 或 剩 余 值 , 即实测值 Y 与假定回归线上 的估计值 Y ˆ 的纵向距 ˆ 。 离 Y Y 求解 a、 b 实际上就是“合理 地”找到一条能最好地代表 数据点分布趋势的直线。
5.列出回归方程(回归直线绘制见图 9-1)
ˆ 1.6617 0.1392 X Y
102 39
此直线必然通过点( X , Y )且与纵坐标轴
相交于截距 a 。如果散点图没有从坐标系原
点开始,可在自变量实测范围内远端取易于读
数的 X 值代入回归方程得到一个点的坐标,
连接此点与点( X , Y )也可绘出回归直线。
102 2
第一节
直线相关
102
3
一、直线相关的概念
直线相关(linear correlation)又称简单相关(simple
correlation),用于双变量正态分布(bivariate normal distribution)资料。其性质可由图9-6散点图直观的说明。
目的:研究 两个变量X,Y数量上的依存(或相关) 关系。 特点:统计关系
102
18
2.进行相关、回归分析前应绘制散点图—第一步
(1) 散点图可考察两变量是否有直线趋势; (2) 可发现离群点(outlier)。
散点图对离群点的识别与处理需要从专业知识和现有
数据两方面来考虑,结果可能是现有回归模型的假设错
误需要改变模型形式,也可能是抽样误差造成的一次偶 然结果甚至过失误差。需要认真核对原始数据并检查其 产生过程认定是过失误差,或者通过重复测定确定是抽 样误差造成的偶然结果,才可以谨慎地剔除或采用其它
第八章
双变量相关与回归
Linear Regression and Correlation
102
1
双变量计量资料:每个个体有两个变量值 总体:无限或有限对变量值 样本:从总体随机抽取的n对变量值 (X1,Y1), (X2,Y2), …, (Xn,Yn) 目的:研究X和Y的数量关系 方法:相关与回归 简单、基本——直线相关、直线回归
编 号 年龄 X
1 13
2 11
3 9