当前位置：文档之家› 多重共线性处理经典例题

多重共线性处理经典例题

理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。

为此，收集了中国能源消费总量Y (万吨标准煤)、国民总收入(亿元)X1(代表收入水平)、国内生产总值(亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费(千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等在1985-2007年期间的统计数据，具体如表4.2所示。

表4.12 1985~2007年统计数据
资料来源：《中国统计年鉴》，中国统计出版社2000、2008年版。

要求：
1)建立对数多元线性回归模型，分析回归结果。

2)如果决定用表中全部变量作为解释变量，你预料会遇到多重共线性的问题吗？为什么？
3)如果有多重共线性，你准备怎样解决这个问题？明确你的假设并说明全部计算。

参考解答：
(1)建立对数线性多元回归模型，引入全部变量建立对数线性多元回归模型如下:
生成: lny=log(y), 同样方法生成: lnx1,lnx2,lnx3,lnx4,lnx5,lnx6,lnx7.
作全部变量对数线性多元回归,结果为:
从修正的可决系数和F统计量可以看出，全部变量对数线性多元回归整体对样本拟合很好，，各变量联合起来对能源消费影响显著。

可是其中的lnX3、lnX4、lnX6对lnY影响不显著,而且lnX2、lnX5的参数为负值，在经济意义上不合理。

所以这样的回归结果并不理想。

(2) 预料此回归模型会遇到多重共线性问题, 因为国民总收入与GDP本来就是一对关联指标；而工业增加值、建筑业增加值、交通运输邮电业增加值则是GDP的组成部分。

这两组指标必定存在高度相关。

解释变量国民总收入(亿元)X1(代表收入水平)、国内生产总值(亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费(千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等很可能线性相关,计算相关系数如下:
可以看出lnx1与lnx2、lnx3、lnx4、lnx5、lnx6之间高度相关，许多相关系数高于0.900以上。

如果决定用表中全部变量作为解释变量，很可能会出现严重多重共线性问题。

（3）因为存在多重共线性，解决方法如下：
A ：修正理论假设，在高度相关的变量中选择相关程度最高的变量进行回归建立模型：而对变量取对数后，能源消费总量的对数与人均生活电力消费的对数相关程度最高，可建立这两者之间的回归模型。

如
22ln 9.9320.421ln 6
(0.116) (0.026)
0.926 0.922 261.551
y x R R F =+===
B ：进行逐步回归，直至模型符合需要研究的问题，具有实际的经济意义和统计意义。

采用逐步回归的办法，去检验和解决多重共线性问题。

分别作ln Y 对
1234567ln ,ln ,ln ,ln ,ln ,ln ,ln X X X X X X X 的一元回归，结果如下:
一元回归结果：
其中加入lnX6的方程调整的可决系数最大, 以lnX6为基础, 顺次加入其他变量逐步回归。

结果如下表:
经比较，新加入lnX5的方程调整可决系数改进最大, 各参数的t检验也都显著，但是lnX5参数的符号与经济意义不符合。

若再加入其他变量后的逐步回归,若剔除不显著的变量和无经济意义的变量后, 仍为第一步所建只包含lnX6的一元回归模型。

如果需要建立多元线性回归模型，则需寻找新的变量或改变模型形式。

例如, 不取对数作全部变量多元线性回归,结果为:
可以看出还是有严重多重共线性。

作逐步回归:
变量X1 X2 X3 X4 X5 X6 X7
参数估计值0.7333 0.7353 1.6655 13.1909 10.8980 678.0058 19332.30 t 统计量26.4698 25.3627 18.0257 25.9636 13.5147 22.4229 4.7024 2
R0.9709 0.9684 0.9393 0.9697 0.8969 0.9599 0.5129 2
R0.9695 0.9669 0.9364 0.9683 0.8920 0.9580 0.4897 X1 X2 X3 X4 X5 X6 X7 2
R
X1，X2 6.6399
（0.0022）-5.9308
(0.0054)
0.9785
X1，X3 0.5512
(0.0000) 0.4349
(0.0821)
0.9726
X1，X4 0.5040
(0.3356) 4.1326
(0.6580)
0.9683
X1，X5 1.0516
(0.0000) -5.0269
(0.013)
0.9766
X1，X6 1.0075
(0.0088) -255.80
(0.438)
0.9690
X1，X7 0.7499
(0.0000) -813.44
(0.5988)
0.9684
可以发现加入X2、X5、X6、X7后参数的符号不合理,加入X4后并不显著。

只有加入X3后修正的可决系数有所提高,而且参数符号的经济意义合理, X3参数估计值的p值为0.0821，在10%的显著性水平下是显著的。

所以相对较为合理的模型估计结果可以为:。

e商务文档

多重共线性处理经典例题

相关文档推荐：