当前位置:
文档之家› 《回归分析——基于R》 第3章 多元线性回归
《回归分析——基于R》 第3章 多元线性回归
1
xnp n( p1)
p
1
2
n
设计矩阵
2017/8/6
中国人民大学六西格玛质量管理研究中心
3
3.1 多元线性回归模型
3.1.2 多元线性回归模型的基本假定
• 解释变量x1, x2, …, xp是确定性变量,不是随机变量,
且要求rank(X)=p+1<n。
• 随机误差项均值为0且等方差,即高斯-马尔柯夫
2017/8/6
中国人民大学六西格玛质量管理研究中心
10
3.2 回归参数的估计
3.2.2 回归值与残差
yˆi ˆ0 ˆ1xi1 ˆ2 xi2 ˆp xip 为观测值yi的回归值;
则对于向量y,其回归值为 yˆ X ˆ (X X )1 X y ,其中
称 H (X X )1 X 为帽子矩阵,主对角线元素记为hii,易
exp(
1
( y - X )( y - X ))
2 2
则对数似然函数为:
ln
L
n 2
ln(2
)
n 2
ln(
2
)
1
2
2
(
y
X
)(
y
X
)
等价于使 ( y X )( y X )达到最小,这与OLSE一致。故在
正态假定下,β 的最大似然估计与OLSE完全相同。但误差
方差的最大似然估计为:
ˆ
2 L
浙江 7552 2110 1552 1228 2997 50197 63374 104.5 3
...
…
…………
…
…
……
… 陕西
…
…………
…
…
……
5551 1789 1322 1212 2079 43073 38564 109.4 3.2
甘肃 4602 1631 1288 1050 1388 37679 21978 108.6 2.7
(I H ) cov( y, y)(I H ) 2 (I H ) D(ei ) (1 hii ) 2 ,i 1, 2, , n
2017/8/6
中国人民大学六西格玛质量管理研究中心
12
3.2 回归参数的估计
3.2.2 回归值与残差
n
n
由 E( ei2 ) D(ei ) (n p 1) 2 可得σ2的无偏估计为:
yˆ 90.437 2.155x2
此方程的回归系数表示第二产业增加值每增加1亿元,GDP 增加2.155亿元,它不等于1。
为什么? 你能合理 解释嘛?
2017/8/6
中国人民大学六西格玛质量管理研究中心
6
3.1 多元线性回归模型
2017/8/6
中国人民大学六西格玛质量管理研究中心
7
3.2 回归系数的估计
2017/8/6
中国人民大学六西格玛质量管理研究中心
19
3.3 有关估计量的性质
性质3 D(ˆ) 2 ( X X )-1
D(ˆ) cov(ˆ, ˆ)
cov(( X X )-1 X y, ( X X )-1 X y) ( X X )-1 X cov( y, y)(( X X )-1 X )
( X X )-1 X 2 X ( X X )-1 2 ( X X )-1 X X ( X X )-1 2 ( X X )-1
当 p=1时即一元线性回归的情况,是上述公式对应的 一个特殊情况,读者不妨自己验证。
2017/8/6
中国人民大学六西格玛质量管理研究中心
20
3.3 有关估计量的性质
第三章 多元线性回归
3.1 多元线性回归模型 3.2 回归系数的估计 3.3 有关估计量的性质 3.4 回归方程的显著性检验 3.5 中心化和标准化 3.6 相关阵与偏相关系数 3.7 本章小结与评注
2017/8/6
中国人民大学六西格玛质量管理研究中心
1
3.1 多元线性回归模型
3.1.1 多元线性回归模型的一般形式 y=β0+β1x1+β2x2+…+βpxp+ε
data3.1<-read.csv(“D:/data3.1.csv”,head=TRUE) #读取数据 lm3.1<-lm(y~x1+x2+x3+x4+x5+x6+x7+x8+x9,data=data3.1) #建 立回归方程 summary(lm3.1) #输出回归结果及显著性检验结果
表3-1中的数据保存在 文件data3.1.csv中, 该文件存储在D盘
(3.1)
2017/8/6
中国人民大学六西格玛质量管理研究中心
2
3.1 多元线性回归模型
3.1.1 多元线性回归模型的一般形式
对于式(3.1)可以写成矩阵形式为
y X
(3.2)
其中,
y1
y
y2
yn
1
X
1
1
x11 x12 x21 x22
xn1 xn2
x1p
x2p
0
E( ) 0 var( ) 2
对n组观测数据 (xi1, xi2,…,xip; yi),i=1,2,…,n, 线性回归模型表示为:
y1 0 1x11 2 x12
y2
0
1x21
2 x22
yn 0 1xn1 2 xn2
p x1p 1 p x2 p 2
p xnp n
对方程组进行整理得到矩阵形式表示的正规方程组
X ( y X ˆ) 0
移项得
X X ˆ X y
当 (X X )1存在时,得回归参数的最小二乘估计为:
ˆ (X X )1 X y
( X X )1 X X 0 rank( X X ) p 1 rank( X ) p 1 Xn( p1) n p 1
1
在x1保持不变时,有
E( y) x2
2
2017/8/6
中国人民大学六西格玛质量管理研究中心
5
3.1 多元线性回归模型
3.1.3 多元线性回归系数的解释
考虑国内生产总值GDP和三次产业增加值的关系 GDP = x1 + x2+ x3 是确定性的函数关系。
现在利用本章表3-10(见下页)的数据做GDP对第二产 业增加值x2的一元线性回归,得回归方程
回归 方程
18
3.3 有关估计量的性质
性质1 ˆ 是随机向量y的一个线性变换。
ˆ (X X )-1 X y
性质2 ˆ 是 β 的无偏估计。
E(ˆ) E(( X X )-1 X y)
( X X )-1 X E( y)
( X X )-1 X E( X ) ( X X )-1 X X
青海 4667 1512 1232 906 1097 46483 33181 110.6 3.4
宁夏 4769 1876 1193 1063 1516 47436 36394 105.5 4.2
新疆 5239 2031 1167 1028 1281 44576 33796 114.8 3.4
2017/8/6
吉林 4635 2045 1594 1448 1643 38407 43415 111 3.7
黑龙江 4687 1807 1337 1181 1217 36406 35711 104.8 4.2
上海 9656 2111 1790 1017 3724 78673 85373 106 3.1
江苏 6658 1916 1437 1058 3078 50639 68347 112.6 3.1
2017/8/6
中国人民大学六西格玛质量管理研究中心
17
3.2.4 实例分析
yˆ 320.641 1.317x1 1.650x2 2.179x3 0.006x4 1.684x5 0.010x6 0.004x7 19.131x8 50.516x9
2017/8/6
中国人民大学六西格玛质量管理研究中心
ˆ0
ˆ1xi1
ˆ2 xi2
Q
p
p ˆp
n
2 ( yi
i 1
ˆ0
ˆ1xi1 ˆ2 xi2
ˆp xip ) 0 ˆp xip )xi1 0
ˆp xip )xip 0
2017/8/6
中国人民大学六西格玛质量管理研究中心
9
3.2 回归参数的估计
3.2.1 回归参数的普通最小二乘估计
2017/8/6
中国人民大学六西格玛质量管理研究中心
15
表 3-1
地区
x1
x2
x3
x4
x5
x6
x7
x8
x9
北京 7535 2639 1971 1658 3696 84742 87475 106.5 1.3
天津 7344 1881 1854 1556 2254 61514 93173 107.5 3.6
( Gauss-Markov )条件。
• 正态分布的假设条件为:
i
1
~
,
N (0, 2 2 , ,n
) , i 1,2, 相互独立
,n
对于模型式(3.2),该条件可表示为:
此时,
N(0, 2In )
y N(X , 2In)
2017/8/6
中国人民大学六西格玛质量管理研究中心
4
3.1 多元线性回归模型
中国人民大学六西格玛质量管理研究中心
y
24046 20024 12531 12212 17717 16594 14614 12984 26253 18825 21545
… … 15333 12847 12346 14067 13892