y1 1 x11 x12 x1p 0 1
3.1 y2 1 x21 x22 x2p 1 + 2 即y=x +
yn 1 xn1 xn2 xnp p n
基本假定
(1) 解释变量x1,x2…,xp 是确定性变量,不是随机变量,且要求
rank(X)=p+1<n,表明设计矩阵X中自变量列之间不相关,样本量的个数应大于解释变量的个数
(2) 随机误差项具有零均值和等方差,即高斯马尔柯夫条件
E( ) 0, 1,2, n
2
cov( , ) , 1,2 n
(3) 对于多元线性回归的正态分布假定条件的矩阵模型为
~N( 0,2I n)随即向量y~N(X , %)
3.2
当(X T X)1存在时,回归参数的最小二乘估计为以収)収丁丫,要求出回归参数,即要求X T X是一个非奇异矩阵,|x T X 0,所以
可逆矩阵X T X为P+1阶的满秩矩阵,又根据两个矩阵乘积的秩不大于每一因子的秩rank(X) p+1,而X为n (p+1)阶矩阵,于是应有n p+1 结论说明,要想用最小二乘法估计多元线性回归模型的未知参数,样本量n必须大于模型自变量p的个数。
3.3
n
注 tr(H) h
1
3.4不能断定这个方程一定很理想,因为样本决定系数与回归方程中
自变量的数目以及样本量n 有关,当样本量个数n 太小,而自变量又较 多,使样本量与自变量的个数接近时, R 2易接近1,其中隐藏一些虚 假成分。
3.5当接受H o 时,认定在给定的显著性水平
下,自变量x1,x2, xp
对因变量y 无显著影响,于是通过x1,x2,
xp 去推断y 也就无多大意
义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描 述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面 可能是在考虑自变量时,把影响因变量y 的自变量漏掉了,可以重新 考虑建模问题。
当拒绝H o 时,我们也不能过于相信这个检验,认为这个回归模型 已经完美了,当拒绝H o 时,我们只能认为这个模型在一定程度上说明 了自变量x1,x2,
xp 与自变量y 的线性关系,这时仍不能排除排除我
们漏掉了一些重要的自变量。
3.6中心化经验回归方程的常数项为0,回归方程只包含p 个参数估计
值1, 2,
p
比一般的经验回归方程减少了一个未知参数,在变量较
SSE (y y)2
e12 e22
1
2
1 E( ) E( -
SSE* -
n p 1 n p n
2
[D(e) (E(e ))2
]
1 n
(1
1 n
2
en
n
E( e
1
1 n p 1 1 n p 1
1
"1 1 n p 1
J (n
D(e)
1
(p 1))
1_ p 1 1
1 n p 1
2 2
n
E(e 2
)
(1 h ) 2
1
多时,减少一个未知参数,计算的工作量会减少许多,对手工计算尤
为重要
在用多元线性回归方程描述某种经济现象时,由于自变量所用的
单位大都不同,数据的大小差异也往往很大,这就不利于在同一标准
上进行比较,为了消除量纲不同和数量级的差异带来的影响,就需要
化回归系数。
3.7
对y o 1X1 2X2 P X P进行中心化处理得
y y 1(X 1 X1) 2(X 2 X2
)
P(X p X P)再将等式除以因变量的样
* y y 1
y 二一-------- (X1X1) V L yy -\i L yy
2
(X 2 .L yy X2
)
p
----- (X p X p)
.L yy
1 . L11 (X 1 X1)
2 . L22(X 2 X2) p L pp (X p X P)•、,
L yy
\ L yy •, L pp
2X2 p X p
所以
3.8 (j为相关阵(r j)p p第i行,第j列的代数余子式)
(1)12
r 12;3
12
11 ? 22
「21
「23
「311
r 21 「23
「31
3.9 (1)11
1
「
23
r32l
(1)22
1 r i3
r3i1
.(1 r 232)(1 r132)
将样本数据标准化处理, 然后用最小二乘法估计未知参数,求得标准
F j =
SSR j)
1
SSE (n p 1)(n p 1)
SSR(j) SSE( j)
辰(n p“言(n P 1)
SSE(j)
(
SSE(j)
SSE(j)
SSE)
(n p 1)(SSE(j)
(
SSE(j) SSE(j)
SSE(j)
)(n P 1)代宀)1 r
yj
2
r yj
(n p 1) ( J)
1 r
yj
F j 与r y2 对应, 所以F j与r y2等价
3.10
F
SSR n p 1
p S ;SE
F (n p 1) p SSR n p 1 n p 1
p SSE p
n p 1 SSR SSR
p SSE SSE SSR SSE SSR R
n P 1 / SSR 八SSR SSE SSE SST R
SST ( 1)
证得R2
F
F (n p 1) p
3.11
p SSE SSE
/1.000 0-556 0731 0724\
所慣~」0.556 LOCO 0.113 0.398 1
710.731 0.113 1.000 0,547 I
\0.724 0.398 0547 1.000 /
⑵(3)( 4)( 5)( 6)
1 回归方程为y= -348.280+3.754x1+7.101x2+12.447x3 2复相关系数R=0.898,决定系数为0.806,拟合度较高。
3方差分析表,F=8.283 , P值=0.015<0.05 ,表明回归方程高度显著,说明x1,x2,x3,整体上对y 有高度显著的线性影响
4回归系数的显著性检验x1工业总产值的P值=0.100
X2农业总产值的P值=0.049
X3居民非产品支出的P值=0.284
在0.1的显著性水平上, x3未通过检验,应将其剔除掉
1 回归方程为y= -459.624+4.676x1+8.971x2
2复相关系数R=0.872,决定系数为0.761,由决定系数看回归方程接近高度相关
3方差分析表,F=11.117, P值=0.007,表明回归方程高度显著说明x1,x2,整体上对y有高度显著的线性影响
4回归系数的显著性检验x1工业总产值的P值=0.037
X2农业总产值的P值=0.008
在0.05的显著性水平上,自变量x1,x2对y均有显著影响
(7)
(8)标准化回归方程y=0.479x1+0.676x2
(9)把x0仁75,x02=42 带入y= -459.624+4.676x1+8.971x2 得
y=267.86
y置信水平95%的区间估计为(211.09492,324.57506)
y置信水平95%的近似区间估计为(219.6978,316.0222)
E(y)置信水平95%的区间估计为(245.00541 ,290.66457)
(10)由于X3的回归系数显著性检验未通过,所以居民非商品支出对货运总量影响不大,但是回归方程整体对数据拟合较好。
3.12
共线性诊断
表中第三行xO(常数项),x1,x2的系数分别为0.73,1.00,0.97 ,说明
x0(常数项),x1,x2之间存在多重共线性。
回归方程为y=2914.646+0.607x1+1.709x2,
第一产业的增加值x1的P® =0.065
第二产业的增加值x2的P t =0.000在0.05的显著性水平上x1对y无显著影响。