当前位置:文档之家› 多重共线性处理经典例题

多重共线性处理经典例题

理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。

为此,收集了中国能源消费总量Y (万吨标准煤)、国民总收入(亿元)X1(代表收入水平)、国内生产总值(亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费(千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等在1985-2007年期间的统计数据,具体如表4.2所示。

表4.12 1985~2007年统计数据
资料来源:《中国统计年鉴》,中国统计出版社2000、2008年版。

要求:
1)建立对数多元线性回归模型,分析回归结果。

2)如果决定用表中全部变量作为解释变量,你预料会遇到多重共线性的问题吗?为什么?
3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算。

参考解答:
(1)建立对数线性多元回归模型,引入全部变量建立对数线性多元回归模型如下:
生成: lny=log(y), 同样方法生成: lnx1,lnx2,lnx3,lnx4,lnx5,lnx6,lnx7.
作全部变量对数线性多元回归,结果为:
从修正的可决系数和F统计量可以看出,全部变量对数线性多元回归整体对样本拟合很好,,各变量联合起来对能源消费影响显著。

可是其中的lnX3、lnX4、lnX6对lnY影响不显著,而且lnX2、lnX5的参数为负值,在经济意义上不合理。

所以这样的回归结果并不理想。

(2) 预料此回归模型会遇到多重共线性问题, 因为国民总收入与GDP本来就是一对关联指标;而工业增加值、建筑业增加值、交通运输邮电业增加值则是GDP的组成部分。

这两组指标必定存在高度相关。

解释变量国民总收入(亿元)X1(代表收入水平)、国内生产总值(亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费(千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等很可能线性相关,计算相关系数如下:
可以看出lnx1与lnx2、lnx3、lnx4、lnx5、lnx6之间高度相关,许多相关系数高于0.900以上。

如果决定用表中全部变量作为解释变量,很可能会出现严重多重共线性问题。

(3)因为存在多重共线性,解决方法如下:
A :修正理论假设,在高度相关的变量中选择相关程度最高的变量进行回归建立模型:而对变量取对数后,能源消费总量的对数与人均生活电力消费的对数相关程度最高,可建立这两者之间的回归模型。


22ln 9.9320.421ln 6
(0.116) (0.026)
0.926 0.922 261.551
y x R R F =+===
B :进行逐步回归,直至模型符合需要研究的问题,具有实际的经济意义和统计意义。

采用逐步回归的办法,去检验和解决多重共线性问题。

分别作ln Y 对
1234567ln ,ln ,ln ,ln ,ln ,ln ,ln X X X X X X X 的一元回归,结果如下:
一元回归结果:
其中加入lnX6的方程调整的可决系数最大, 以lnX6为基础, 顺次加入其他变量逐步回归。

结果如下表:
经比较,新加入lnX5的方程调整可决系数改进最大, 各参数的t检验也都显著,但是lnX5参数的符号与经济意义不符合。

若再加入其他变量后的逐步回归,若剔除不显著的变量和无经济意义的变量后, 仍为第一步所建只包含lnX6的一元回归模型。

如果需要建立多元线性回归模型,则需寻找新的变量或改变模型形式。

例如, 不取对数作全部变量多元线性回归,结果为:
可以看出还是有严重多重共线性。

作逐步回归:
变量X1 X2 X3 X4 X5 X6 X7
参数估计值0.7333 0.7353 1.6655 13.1909 10.8980 678.0058 19332.30 t 统计量26.4698 25.3627 18.0257 25.9636 13.5147 22.4229 4.7024 2
R0.9709 0.9684 0.9393 0.9697 0.8969 0.9599 0.5129 2
R0.9695 0.9669 0.9364 0.9683 0.8920 0.9580 0.4897 X1 X2 X3 X4 X5 X6 X7 2
R
X1,X2 6.6399
(0.0022)-5.9308
(0.0054)
0.9785
X1,X3 0.5512
(0.0000) 0.4349
(0.0821)
0.9726
X1,X4 0.5040
(0.3356) 4.1326
(0.6580)
0.9683
X1,X5 1.0516
(0.0000) -5.0269
(0.013)
0.9766
X1,X6 1.0075
(0.0088) -255.80
(0.438)
0.9690
X1,X7 0.7499
(0.0000) -813.44
(0.5988)
0.9684
可以发现加入X2、X5、X6、X7后参数的符号不合理,加入X4后并不显著。

只有加入X3后修正的可决系数有所提高,而且参数符号的经济意义合理, X3参数估计值的p值为0.0821,在10%的显著性水平下是显著的。

所以相对较为合理的模型估计结果可以为:。

相关主题