多元线性回归
E(y/x2)- E(y/x1)
0 E( y | x 0)
E(y
/
x2 ) x2
E(y x1
/
x1 )
E(y/x1) E(y/x2)
0 0
x1
x2
5
产生ε的原因
许多x以外的其他因素的影响; 度量误差; 模型不精确引起的误差.
6
1
模型的建立
求一元线性函数
E( y / x) 0 1x
x2i x2i x1i
xpi xpi x1i
y1
1 x1
令
Y
y2
X
1
x2
yn
1
xn
e1
e
e2
en
B
b0 b1
Y XB e
e1,
e2,
,
en
相
互
独
立
均 值 为0, 方 差 为 2
的经验回归方程
yˆ b0 b1x
其 中 yˆ 是 E ( y / x)( 或 简 写 为 E ( y) )的 估 计 值 , b0 , b1 分 别 是 0, 1 的 估 计 值 ,称 为 经 验 回 归 系 数 .
7
一元模型的数据结构
设 x, y有n组观测值 xi , yi , (i 1, 2,, n)
y 1 x12 2
x2
3
x3 x4
...
只需定义
Z 1 x12 , Z 2
x2 ,
Z3
x3 x4
即 Y 1Z1 2 Z 2 3Z 3 ...
11
最简单的线性模型表示
E y | x 0 1x1 p xp
x2i xki
xpi xpi x1i
x2 pi
b0
b1 b2
bp
yi x1i yi
x
pi
yi
n
x1i
x1i x2
1i
求 b0 , b1 , , b p,使 得
Q(b0
,
b1,,
bp
)
0
min
, 1 ,,
p
Q(0
,
1,,
p
),
23
称 b0 , b1 , , b p 为 模 型 参 数 1 , 2 , , p 最小二乘估计。 称 yˆi b0 b1xi1 b2 xi2 bp xip 为因变量 yi (i 1, 2,, n) 的回归拟合值。 称 ei yi yˆi为因变量 yi (i 1, 2,, n) 的残差。
X
1
x21
x2
p
e1
e
e2
b0
B
b1
yn
n1
1 xn1 xnp n( p1)
en
n1
bp ( p1)1
则
Y XB e
e ~ Nn (0, 2 In )
15
模型的几何解释 (以二元为例)
0
初始状态
y
x2
0 + 2x2
x1 X2的单独效应
0 y
x2 x1
X1的单独效应
0 + 1x1
0
y
x2
x1 X1对y的单独效应是指在x2保 持为恒量时X1对y的效应。
同理,X2对y的单独效应是指在x1 保持为恒量时X2对y的效应。 16
2
模型的几何解释 (以二元为例)
1、建立因变量 y 与 x1, x2 ,, xm 经验公式(回归方程);
2、对经验公式的可信度进行检验; 判断每个自变量 xi (i 1, 2,, m) 对y的影响是否显著?
3、诊断经验公式是否适合这组数据; 4、利用经验公式进行预报与控制.
由于一元线性回归的大部分内容可用于多元回归,且基本 概念是一样的。因此,本章讲授路线均以一元回归作为例,然 后予以推广。
数据类型不同 侧重点不同 均为线性模型
18
3
第二节 多元模型参数的最小二乘估计
19
4.1.2 模型参数的最小二乘估计
“合理地”找出一条能最好地代表数据点分布的趋势的直线, 一个自然的想法就是各点的残差尽可能的小。这就是所谓“最 小二乘法”.根据这一原则,数学上可导出b0、b1 的算式如下:
yi 0 1xi1 2 xi2 p xip i ( i 1, 2,..., n), E(i ) 0, Var(i ) 2 , COV (i , j ) 0 (i j) 或 i ~ N (0, 2 ), 相互独立 (i 1, 2,..., n)
3
第一节 多元线性回归模型
4
回 顾:
经典一元线性模型假定y由一个均值和一个随机误差ε 合成,
表示如下:
或
y 0 1x E(y x) 0 1x
其中,y是可以观测的随机变量,ε是不可观测的随机变量。
~ N (0, 2 ) E(y/x)是x的线性函数。
E(y/x)=0+1x
bp xp2 bp xpn
e2 en
14
模型的矩阵表达式
设 x1, x2 ,, xp , y 有n 组观测值 xi1, xi2 ,, xip , yi ,
(i 1, 2,, n)
令
y1
Y
y2
1 x11 x1p
(i 1, 2,, n)
得:yi b0 b1x1i b2 x2i bp xpi ei
y1 b0 b1x11 b2 x21 bp xp1 e1
.yy..2n
b0 b0
b1x12 b2 x22 ....
b1x1n b2 x2n
将Q对参数bj ( j 0,1,..., p)分别求偏导数,并令其等于零,
可得
Q
b0
n
2
i 1
( yi
b0
p
bj xij ) 0
j 1
Q
bj
n
2 [( yi
i 1
b0
p
bj xij )]xij
j 1
0,
( j 1,, p)
25
整理后得到关于参数bj的正规方程组
0 x1ib0
x1ib1 x12ib1
x2ib2 x1i x2ib2
x pi bp
yi x1i xpibp
x1i yi
x2ib0
x1i x2ib1
x22ib2
x2i xpibp
var( y | x) 2
或
E y | x 0 1x1 p x p
y
|
x
~
N (0
1 x1
p xp ,
2)
12
2
模型的建立
求 p元线性函数
Ey 0 1x1 2 x2 p xp
的经验回归方程
E ( y ) 0 1 x var( y ) 2
8
4.1 多元线性回归模型
模型的定义 假设因变量Y与x1, x2 ,, xp线性相关,收集到n组数据 ( yi , xi1, xi2 ,, xi p )(i 1, 2,..., n), 满足以下回归模型
第4章 多元线性回归分析
姜晶梅 流行病与统计学系 北京协和医学院基础学院
2014.03.13
1
主要内容
4.1 多元线性回归模型 4.2 回归方程的显著性检验 4.3 最优回归方程的选择 4.4 多重共线性的诊断和处理 4.5 异常点的诊断和处理 4.6 方程的应用(利用方程来控制混杂变量)
2
引言
回归分析方法是多元统计分析的各种方法中应用最广泛 的一种,用于研究一个(或几个)因变量y与另一些变量的相 互依赖关系.具体研究以下几个问题:
n
Q= ( yi b0 b1xi )2 i 1
Q
b0
n
2
i 1
( yi
b0
b1xi )(1)
0
Q
b1
n
2
i 1
( yi
b0
b1xi )(xi )
0
21
整理之后就得到b0 , b1的方程组
n
n
nb0 ( xi )b1 yi
i 1
且期望值为0,即ε~N(0,2);
方差齐性: 对于自变量 x1,x2,…,xp的所有值,
的方差 2都相同, 即 Var(εi)= 2
独立性: 对于自变量 x1,x2,…,xp的一组特定值, 它所对应的 与任意一组其它值所对应的不相关,即
COV(εi ,εj)=0 .
当模型违反上述假设后,就不能使用最小二乘法估计回归系数. 解决方法将在以后介绍,先介绍模型符合假设时的参数估计方法.