第7章 岭回归思考与练习参考答案7.1 岭回归估计是在什么情况下提出的?答:当自变量间存在复共线性时,|X’X |≈0,回归系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。
7.2岭回归的定义及统计思想是什么?答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X ’X )-1为奇异时,给X’X 加上一个正常数矩阵D, 那么X’X+D接近奇异的程度就会比X ′X 接近奇异的程度小得多,从而完成回归。
但是这样的回归必定丢失了信息,不满足blue 。
但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。
7.3 选择岭参数k 有哪几种方法?答:最优k 是依赖于未知参数β和2σ的,几种常见的选择方法是: ○1岭迹法:选择0k 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多; ○2方差扩大因子法:11()()()c k X X kI X X X X kI --'''=++,其对角线元()jj c k 是岭估计的方差扩大因子。
要让()10jj c k ≤;○3残差平方和:满足()SSE k cSSE <成立的最大的k 值。
7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是:1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。
我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;2. 当k 值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k的增加迅速趋近于零。
像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;3.去掉标准化岭回归系数很不稳定的自变量。
如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。
7.5 对第5章习题9的数据,逐步回归的结果只保留了三个变量x1,x2,x5,用y对这三个自变量作岭回归分析?答:附5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。
为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),x5为社会消费总额(亿元),x6为受灾面积(万公顷)。
据《中国统计年鉴》获得1978—1998年共21个年份的统计数据,见表5.4(P167)。
解:(1)逐步回归法回归方程为:y=865.929—0.601x1-0.361x2+0.639x5但是回归系数的解释不合理。
从经济意义上讲,x1(农业增加值)、x2(工业增加值)的增加应该对y(财政收入)有正方向的影响,然而回归方程中两个自变量的系数均为负值,明显与实际的经济意义不相符。
同时,三个自变量的VIF值均远大于10,说明回归方程仍然存在较强的多重共线性,逐步回归的方法并没有消除自变量之间的多重共线性。
(2)岭回归法:依题意,对逐步回归法所保留的三个自变量做岭回归分析。
程序为:include'C:\Program Files\SPSSEV AL\Ridge regression.sps'.ridgereg dep=y/enter x1 x2 x5可以看到,变量x 1、x 2迅速由负变正,x 5迅速减小,在0.01-0.1之间各回归系数的岭估计基本稳定,重新做岭回归。
岭迹图如下:先取k=0.08: 语法命令如下:include'C:\Program Files\SPSSEV AL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5 /k=0.08.运行结果如下:得到回归方程为:123ˆ0.160.080.06738.84yx x x =+++再取k=0.01:语法命令如下:include'C:\Program Files\SPSSEV AL\Ridge regression.sps'.ridgereg dep=y/enter x1 x2 x5/k=0.01.运行结果:****** Ridge Regression with k = 0.01 ******Mult R .9931857RSquare .9864179Adj RSqu .9840210SE 329.6916494ANOVA tabledf SS MSRegress 3.000 134201841 44733947Residual 17.000 1847841.9 108696.58F value Sig F411.5487845 .0000000--------------Variables in the Equation----------------B SE(B) Beta B/SE(B)x1 .0556780 .0615651 .0981355 .9043751x2 .0796395 .0218437 .3291293 3.6458814x5 .1014400 .0108941 .5621088 9.3114792Constant 753.3058478 121.7381256 .0000000 6.1879205 回归方程为:y=753.3058—0.05568x1-0.0796x2+0.1014x5从上表可看出,方程通过F检验,R检验,经查表,所有自变量均通过t检验,说明回归方程通过检验。
从经济意义上讲,x1(农业增加值)、x2(工业增加值)x5(社会消费总额)的增加应该对y(财政收入)有正方向的影响,岭回归方程中三个自变量的系数均为正值,与实际的经济意义相符。
比逐步回归法得到的方程有合理解释。
(3)主成分回归对原所有自变量做主成分回归,结果如下:由于第一主成分的贡献率已达到85%以上,故只选取第一主成分,记作Z1:Z1=(0.991x1+0.985x2+0.983x3+0.929x4+0.193x5+0.610x6)/5.1331/2,作Y与Z1的最小二乘估计,输出结果如下:根据上表得到y与第一主成分的线性回归方程为:yˆ=3400.443+1149.094Z1,将主成分回代为原自变量得最终方程为:yˆ=0.1093 * x1+0.0463 * x2+0.2912 * x3+0.0512 * x4+0.0347 * x5+0.0444* x6-6313.397各自变量的解释意义基本合理。
7.6 对习题3.12的问题,分别用普通最小二乘法和岭回归建立GDP 对第二产业增加值x2和第三产业增加值x3的二元线性回归,解释所得到的回归系数。
解:(1)普通最小二乘法:根据上表得到y 与x2,x3的线性回归方程为:yˆ=4352.859+1.438x2+0.679x3 上式中的回归系数得不到合理的解释. 3ˆβ的数值应该大于1,实际上,x 3的年增长幅度大于x 1和x 2的年增长幅度,因此合理的3ˆβ的数值应大于1。
这个问题产生的原因仍然是存在共线性, 所以采用岭回归来改进这个问题。
(2)岭回归法:程序为:include'C:\Program Files\SPSSEV AL\Ridge regression.sps'.ridgereg dep=GDP/enter x2 x3 /start=0.0/stop=0.5/inc=0.01.根据岭迹图(如下图)可知,)(ˆ2k β和)(ˆ3k β很不稳定,但其和大体上稳定,说明x2和x3存在多重共线性。
取k=0.1,SPSS 输出结果为:Mult R .998145, RSquare .996294 Adj RSqu .995677,SE 2364.837767ANOVA tabledf SS MS Regress 2.000 1.80E+010 9.02E+009 Residual 12.000 67109492 5592457.7 F value Sig F 1613.140715 .000000--------------Variables in the Equation----------------B SE(B) Beta B/SE(B)x2 .907990 .021842 .489067 41.571133x3 1.393800 .035366 .463649 39.410560Constant 6552.305986 1278.903452 .000000 5.123378ˆ =1.227与前面的分析是吻合的,其解释是当第二产业增加值岭回归系数3x2保持不变时,第三产业增加值x3每增加1亿元GDP增加1.227亿元,这个解释是合理的。
7.7一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。
为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做定量分析,以便找出控制不良贷款的方法。
表7.5(P206)是该银行所属25家分行2002年的有关业务数据。
(1)计算y与其余4个变量的简单相关系数。
(2)建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理?(3)分析回归模型的共线性。
(4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?是否还存在共线性?(5)建立不良贷款y对4个变量的岭回归。
(6)对(4)剔除变量后的回归方程再做岭回归。
(7)某研究人员希望做y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归,你认为这样做可行吗?如果可行应怎么做?解:首先对数据标准化。
(1)计算y与其余4个变量的简单相关系数。
计算y与各自变量之间的简单相关系数,SPSS输出结果为:由结果得到,Y与四个自变量的相关系数分别为:0.844, 0.732, 0.7, 0.519,且都通过了显著性检验,说明y与其余4个变量是显著线性相关的。
同时也可以看出变量之间也存在一定的线性相关性。
(2)建立不良贷款对4个自变量的线性回归方程,所得的回归系数是否合理?由SPSS输出(如上表)可知回归方程为:yˆ=0.04x1+0.148x2+0.015x3-0.029x4-1.022从上表可看出,方程的自变量X3、X4、X5未通过t检验,说明回归方程不显著,而且由实际意义出发,x4的系数不能是负的。