当前位置:文档之家› 应用回归分析-第7章课后习题参考答案

应用回归分析-第7章课后习题参考答案

应用回归分析-第7章课后习题参考答案第7章 岭回归思考与练习参考答案7.1 岭回归估计是在什么情况下提出的?答:当自变量间存在复共线性时,|X’X |≈0,回归系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。

7.2岭回归的定义及统计思想是什么?答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X ’X )-1为奇异时,给X’X 加上一个正常数矩阵D, 那么X ’X+D 接近奇异的程度就会比X ′X 接近奇异的程度小得多,从而完成回归。

但是这样的回归必定丢失了信息,不满足blue 。

但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。

7.3 选择岭参数k 有哪几种方法?答:最优k 是依赖于未知参数β和2σ的,几种常见的选择方法是: ○1岭迹法:选择0k 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多;○2方差扩大因子法:11()()()c k X X kI X X X X kI --'''=++,其对角线元()jj c k 是岭估计的方差扩大因子。

要让()10jj c k ≤; ○3残差平方和:满足()SSE k cSSE <成立的最大的k 值。

7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是:1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。

我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;2. 当k 值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k 的增加迅速趋近于零。

像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;3. 去掉标准化岭回归系数很不稳定的自变量。

如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。

7.5 对第5章习题9的数据,逐步回归的结果只保留了三个变量x1,x2,x5,用y 对这三个自变量作岭回归分析?答: 附5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。

为了建立国家财政收入回归模型,我们以财政收入y (亿元)为因变量,自变量如下:x 1为农业增加值(亿元),x 2为工业增加值(亿元),x 3为建筑业增加值(亿元),x 4为人口数(万人),x 5为社会消费总额(亿元),x 6为受灾面积(万公顷)。

据《中国统计年鉴》获得1978—1998年共21个年份的统计数据,见表5.4(P167)。

解:(1)逐步回归法Coe fficientsa 715.30990.5747.898.000.179.004.99440.739.0001010.840136.0277.431.000.308.048 1.706 6.367.000-.405.152-.714-2.665.016865.929103.7258.348.000.639.086 3.5417.439.000-.601.119-1.059-5.057.000-.361.086-1.493-4.216.001(Constant)x5(Constant)x5x1(Constant)x5x1x2Model 123B Std. E rror Unstandardized Coefficients BetaStandardizedCoefficientstSig.Dependent Variable: ya.回归方程为:y=865.929—0.601x1-0.361x2+0.639x5但是回归系数的解释不合理。

从经济意义上讲,x 1(农业增加值)、x 2(工业增加值)的增加应该对y (财政收入)有正方向的影响,然而回归方程中两个自变量的系数均为负值,明显与实际的经济意义不相符。

同时,三个自变量的VIF 值均远大于10,说明回归方程仍然存在较强的多重共线性,逐步回归的方法并没有消除自变量之间的多重共线性。

(2)岭回归法:依题意,对逐步回归法所保留的三个自变量做岭回归分析。

程序为:include'C:\Program Files\SPSSEV AL\Ridge regression.sps'.ridgereg dep=y/enter x1 x2 x5 1.200001.000000.800000.600000.400000.200000.000004.0000003.0000002.0000001.0000000.000000-1.000000-2.000000x5Kx2K x1K x5Kx2K x1K KR IDG E TR AC E可以看到,变量x 1、x 2迅速由负变正,x 5迅速减小,在0.01-0.1之间各回归系数的岭估计基本稳定,重新做岭回归。

岭迹图如下:先取k=0.08: 语法命令如下:include'C:\Program Files\SPSSEV AL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5 /k=0.08.运行结果如下:得到回归方程为:123ˆ0.160.080.06738.84yx x x =+++再取k=0.01:语法命令如下:include'C:\Program Files\SPSSEV AL\Ridge regression.sps'.ridgereg dep=y/enter x1 x2 x5/k=0.01.运行结果:****** Ridge Regression with k = 0.01 ******Mult R .9931857RSquare .9864179Adj RSqu .9840210SE 329.6916494ANOVA tabledf SS MSRegress 3.000 134201841 44733947Residual 17.000 1847841.9 108696.58F value Sig F411.5487845 .0000000--------------Variables in the Equation----------------B SE(B) Beta B/SE(B)x1 .0556780 .0615651 .0981355 .9043751x2 .0796395 .0218437 .3291293 3.6458814x5 .1014400 .0108941 .5621088 9.3114792Constant 753.3058478 121.7381256 .0000000 6.1879205 回归方程为:y=753.3058—0.05568x1-0.0796x2+0.1014x5从上表可看出,方程通过F检验,R检验,经查表,所有自变量均通过t检验,说明回归方程通过检验。

从经济意义上讲,x1(农业增加值)、x2(工业增加值)x5(社会消费总额)的增加应该对y(财政收入)有正方向的影响,岭回归方程中三个自变量的系数均为正值,与实际的经济意义相符。

比逐步回归法得到的方程有合理解释。

(3)主成分回归对原所有自变量做主成分回归,结果如下:Total Variance E xplaine d5.13385.54685.546 5.13385.54685.546.69411.56397.109.69411.56397.109.168 2.80699.915.168 2.80699.915.004.06099.975.004.06099.975.001.02199.996.001.02199.996.000.004100.000Component123456Total % of Variance Cumulative %Total % of Variance Cumulative %I nitial E igenvaluesE xtraction Sums of Squared LoadingsE xtraction Method: P rincipal Component Analysis.Com pone nt Matrixa .991-.124.017-.048.014.985-.134.106.003-.012.983-.143.112.035.021.929.038-.367.009.000.990-.123.067.001-.022.610.790.069-.001.000x1x2x3x4x5x612345ComponentE xtraction Method: P rincipal Component Analysis.5 com ponents extracted.a.由于第一主成分的贡献率已达到85%以上,故只选取第一主成分,记作Z1: Z1=(0.991x1+0.985x2+0.983x3+0.929x4+0.193x5+0.610x6)/5.1331/2, 作Y 与Z1的最小二乘估计,输出结果如下:Coe fficientsa 3400.443136.43624.923.0001149.09463.348.97218.139.000(Constant)Z1Model1B Std. E rror Unstandardized Coefficients BetaStandardizedCoefficientstSig.Dependent Variable: ya.根据上表得到y 与第一主成分的线性回归方程为:yˆ=3400.443+1149.094Z1, 将主成分回代为原自变量得最终方程为:yˆ=0.1093 * x1+0.0463 * x2+0.2912 * x3+0.0512 * x4+0.0347 * x5+0.0444 * x6-6313.397各自变量的解释意义基本合理。

7.6 对习题3.12的问题,分别用普通最小二乘法和岭回归建立GDP 对第二产业增加值x2和第三产业增加值x3的二元线性回归,解释所得到的回归系数。

解:(1)普通最小二乘法:Coe fficie ntsa 4352.859679.0656.410.0001.438.151.7759.544.000.679.244.2262.784.017(Constant)第二产业增加值第三产业增加值Model1B Std. E rror Unstandardized Coefficients BetaStandardizedCoefficientstSig.Dependent Variable: GDPa.根据上表得到y 与x2,x3的线性回归方程为:yˆ=4352.859+1.438x2+0.679x3 上式中的回归系数得不到合理的解释. 3ˆβ的数值应该大于1,实际上,x 3的年增长幅度大于x 1和x 2的年增长幅度,因此合理的3ˆβ的数值应大于1。

相关主题