当前位置:文档之家› 应用回归分析课后习题

应用回归分析课后习题

y1 1 x11 x12 x1p 0 1
3.1 y2 1 x21 x22 x2p 1 + 2 即y=x +
yn 1 xn1 xn2 xnp p n
基本假定
(1)解释变量x1,x2…,xp 是确定性变量,不是随机变量,且要求
rank(X)=p+1<n,表明设计矩阵X中自变量列之间不相关,样本量的个数应大于解释变量的个数
(2)随机误差项具有零均值和等方差,即高斯马尔柯夫条件
(3)对于多元线性回归的正态分布假定条件的矩阵模型为
~N( 0,2I n) 随即向量y~N(X , 2I n)
3.2
当(X T X)1存在时,回归参数的最小二乘估计为&収)収丁丫,
要求出回归参数,即要求X T X是一个非奇异矩阵,|x T X 0,所以
可逆矩阵X T X为P+1阶的满秩矩阵,又根据两个矩阵乘积的秩不大于每一因子的秩rank(X) p+1,而X为n (p+1)阶矩阵,于是应有n p+1 结论说明,要想用最小二乘法估计多元线性回归模型的未知参数,样本量n必须大于模型自变量p的个数。

3.3
n
注 tr(H) h
1
3.4不能断定这个方程一定很理想,因为样本决定系数与回归方程中
自变量的数目以及样本量n 有关,当样本量个数n 太小,而自变量又较 多,使样本量与自变量的个数接近时, R 2易接近1,其中隐藏一些虚 假成分。

3.5当接受H o 时,认定在给定的显着性水平
下,自变量x1,x2, xp
对因变量y 无显着影响,于是通过x1,x2,
xp 去推断y 也就无多大意
义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描 述,而误用了线性模型,使得自变量对因变量无显着影响;另一方面 可能是在考虑自变量时,把影响因变量y 的自变量漏掉了,可以重新 考虑建模问题。

当拒绝H o 时,我们也不能过于相信这个检验,认为这个回归模型 已经完美了,当拒绝H o 时,我们只能认为这个模型在一定程度上说明 了自变量x1,x2,
xp 与自变量y 的线性关系,这时仍不能排除排除我
们漏掉了一些重要的自变量。

3.6中心化经验回归方程的常数项为0,回归方程只包含p 个参数估计
值1, 2,
p
比一般的经验回归方程减少了一个未知参数,在变量较
SSE (y y)2
e12 e22
1
2
1 E( ) E( -
SSE*
n p 1 n p n
2 [D(e) (E(e))2]
1 n
(1
1 n
2
en
n
E( e
1
1
n p 1 1 n p 1
1
"1 1 n p 1
J (n
D(e)
1
(p 1))
1_ p 1 1
1 n p 1
2 2
n
E(e 2)
(1 h ) 2
1
多时,减少一个未知参数,计算的工作量会减少许多,对手工计算尤为重要。

在用多元线性回归方程描述某种经济现象时,由于自变量所用的
单位大都不同,数据的大小差异也往往很大,这就不利于在同一标准
上进行比较,为了消除量纲不同和数量级的差异带来的影响,就需要
化回归系数。

3.7
对y o 1X1 2x2 P X P进行中心化处理得
y y 1(x 1 X1)2(x 2 X2
)
p(x p X P)再将等式除以因变量的样
* y y 1
y 二一---------- (x1x1) V L yy V L yy
2
------ (X 2
L yy
X2
)
p
----- (x p x p)
L yy
1 . L ii (x 1 X1)
2 •. L22
(X 2 X2)
v L11 L yy L22 p . L pp (x p x p) i L yy L pp
2X2 p X p
所以
3.8 (j为相关阵(r j)p p第i行,第j列的代数余子式)
r
i2;3
12 11 ? 22
3.9
F j =
将样本数据标准化处理, 然后用最小二乘法估计未知参数,求得标准
1
SSE SSR SSE
SSR SSE SSE SST
空R 2
SST
SSE
3.11
SSR j) 1 SSE (n P 1)
SSR (j)
"SST
(n p

SSE (j) SSE
(n
1) (SSE (j)
(
SSE (j) SSE (j\ SSE (n P 1)
(n P 1) (SSE (j)
(
SSE (j)
SSE (j )
SSR j)
SSE (j)) (n P 1)
(r

TT
2
)
yj
2
r
yj
(n p 1) ( J)
1 r
yj
r y2小于i , F j 与
2 r
yj
对应, 所以F j 与r ;等价
3.10
SSR n
F (n P
1) P
SSR _P
n P 1
SSE
P 1 SSE
SSR SSR 证得
R 2
F (n P 1) P
SSE
1 回归方程为 y= -348.280+3.754x1+7.101x2+12.447x3 2复相关系数R=0.898,决定系数为0.806,拟合度较高。

3方差分析表,F=8.283 , P 值=0.015<0.05 ,表明回归方程高度显着, 说明x1,x2,x3,整体上对y
有高度显着的线性影响
X2农业总产值的P 值=0.049 X3居民非产品支出的 P 值=0.284
模型汇总
模型
R R 方 调整R 方 标准估计的误
差 1
.872 a
.761
.692
24.08112
⑵(3)( 4)( 5)( 6)
输入/移去的变量b
模型 输入的变量 移去的变量
方法 1
x2, x1 a
输入
a.已输入所有请求的变量。

b.因变量:y
在0.1的显着性水平上,
x3未通过检验,应将其剔除掉
4回归系数的显着性检验
x1工业总产值的P 值=0.100
a.预测变量:(常量),x2, x1
1 回归方程为y= -459.624+4.676x1+8.971x2
2复相关系数R=0.872,决定系数为0.761,由决定系数看回归方程接近高度相关
3方差分析表,F=11.117, P值=0.007,表明回归方程高度显着说明x1,x2,整体上对y有高度显着的线性影响
4回归系数的显着性检验x1工业总产值的P值=0.037
X2农业总产值的P值=0.008
在0.05的显着性水平上,自变量x1,x2对y均有显着影响
(8 )标准化回归方程y=0.479x1+0.676x2
(9)把x0仁75,x02=42 带入y= -459.624+4.676x1+8.971x2 得
y=267.86
y置信水平95%的区间估计为(211.09492,324.57506)
y置信水平95%的近似区间估计为(219.6978,316.0222)
E (y)置信水平95%的区间估计为(245.00541 ,290.66457)
(10)由于X3的回归系数显着性检验未通过,所以居民非商品支出对货运总量影响不大,但是回归方程整体对数据拟合较好。

3.12
b
a. 预测变量:(常量),x2, x1
表中第三行xO(常数项),x1,x2的系数分别为0.73,1.00,0.97 ,说明
x0(常数项),x1,x2之间存在多重共线性。

回归方程为y=2914.646+0.607x1+1.709x2,
第一产业的增加值x1的P® =0.065
第二产业的增加值x2的P t =0.000在0.05的显着性水平上x1对y无显着影响。

相关主题