第5章多重共线性
3、解释变量之间相关=>多重共线 4、随机扰动项相关=>自相关 5、随机扰动项方差不等于常数=>异
方差
第五章 多重共线性
本章讨论 ☻什么是多重共线性 ☻多重共线性产生的后果 ☻多重共线性的检验 ☻多重共线性的补救措施
第一节 什么是多重共线性
一. 多重共线性的概念
多重共线性:在多元线性回归模型中,解 释变量之间存在着完全的线性关系或接近 的线性关系
依据参数估计量及其标准误,可计算出各回 归系数估计量的t统计量值:
t0
8.133 8.92
0.91,t1
1.059 0.17
6.10,t2
0.452 0.66
0.69, t3
0.121 1.09
0.11
除t1外,其余的t值都很小。工资收入X1的系数的t 检验值虽然显著,但该系数的估计值过大,该值为 工资收入对消费边际效应,因为它为1.059,意味 着工资收入每增加一美元,消费支出的增长平均将 超过一美元,这与经济理论和常识不符。
2、参数估计值的方差无限大
由第四章得ˆ2和ˆ3的方差为:
即:
Var(ˆ2 )
x22x32
2x32 (x2x3)2
Var (ˆ3 )
x22x32
2x22 (x2x3)2
设x2 x3
Var(ˆ2 )
2( x2 )2 x22( x2 )2 (x2x2 )2
2.1832 Schwarz criterion
0.7860
Log likelihood
-4.9972 F-statistic
60.1321
Durbin-Watson stat
0.66 Prob(F-statistic)
0.0000
(1)写出回归方程;
(2)请根据上表中已有数据,填写表中括 号处缺失结果(注意给出计算步骤)
Variable
Coefficient Std. Error t-Statistic Prob.
C
2.9911 0.1426
20.9787 0.0000
LOG(X2)
-0.6589 0.1276
---------- 0.0000
LOG(X3)
0.6752 --------
5.8018 0.0000
R-squared
另外,理论上非工资—非农业收入与农业收入也是 消费行为的重要解释变量,但两者的t检验都没有 通过。这些迹象表明,模型中存在严重的多重共线 性,不同收入部分之间的相互关系,掩盖了各个部 分对解释消费行为的单独影响。
第四节 多重共线性的补救措施 一、增加样本容量
样本数据太少,易产生多重共线性。
二、利用先验信息
X3 0.999
1
说明 X1 、X2近似完全线性关系。可以判定 模型存在严重的多重共线性
对25只股票价格变动情况进行实证分析,设置模型如下: ln(Y) =β 1+β 2ln(X2)+β 3ln(X3)+ut,其中Y为股价价格, X2为交易日平均换手率,X3为每股收益,回归结果如下:
Dependent Variable: LOG(Y) Included observations: 25
x22 2
0
同理,易得 Var(ˆ3)
Байду номын сангаас
EVIEWS遇到完全多重共线性时, 会显示
Near singular matrix,无法进行 估计
二、不完全多重共线性下的后果
1、估计量的方差增大
由于
Var(ˆ2 )
x32x22
2x32 (x2x3)2
2
方差膨胀因子
先验信息:在此之前的研究成果 所提供的信息。
利用某些先验信息,将信息重叠 的一些变量合为一个变量,从而 消除共线性。
接例1
假如认为消费对财富的变化率是对收 入的相应变化率的1/10,即a3=1/10a2 , 如何解决多重共线性?
将a3=1/10a2 带入模型,可得 Y=a1+a2(X2+0.1X3)+ut 此时解释变量只有一个:X2+0.1X3,此
相关)
(6)随机扰动项服从正态分布。
不满足基本假定的情形(1)
1、通常不会发生随机扰动项均值不等于0的 情形。若发生也不会影响解释变量的系数, 只会影响截距项。
2、随机扰动项正态性假设一般能够成立, 就算不成立,在大样本下也会近似成立的。 所以不讨论此假定是否违背。
不满足基本假定的情形(2)
Multi-Collinearity
第五章 多 重 共 线 性
问题的提出
在前述基本假定下OLS估计具有BLUE 的优良性。然而实际问题中,这些基 本假定往往不能满足,使OLS方法失效 不再具有BLUE特性。估计参数时,必 须检验基本假定是否满足,并针对基 本假定不满足的情况,采取相应的补 救措施。
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
Prob. 0.0000 0.2936
0.000 0.0003 0.9427 0.5776 0.5432 10049.04 12585.51 17.58009 17.90704 366.6801 0.000000
另外判断参数估计值的符号,如果不符合 经济理论或实际情况,可能存在多重共线性。
练习题4.5
从模型拟合结果可知,样本观测个数为27, 消费模型的判定系数,F统计量为107.37,在 0.05置信水平下查分子自由度为3,分母自由 度为23的F临界值为3.028,计算的F值远大 于临界值,表明回归方程是显著的。模型整 体拟合程度较高。
例2 课本例题 发展农业会减少财政收入吗?
财政收入模型:
CSi 0 1NZi 2GZi 3JZZi 4TPOPi 5CUMi 6SZMi ui
财政收入模型的EViews估计结果
Variable 农业增加值NZ 工业增加值GZ 建筑业增加值JZZ 总人口TPOP 最终消费CUM 受灾面积SZM
JZZ 0.983 0.999 1.000 0.864 0.996
TPOP 0.928 0.844 0.864 1.000 0.889
CUM 0.989 0.993 0.996 0.889 1.000
SZM 0.226 0.129 0.155 0.388 0.185
SZM 0.226 0.129 0.155 0.388 0.185 1.000
(3)进行统计检验F检验和t检验?
(4)已知log(X2)和log(X3)相关系数=0.2767,请问是否存在严重的多重共线性?
例如(引子)
NZ
GZ
JZZ TPOP CUM
NZ 1.000 0.973 0.983 0.928 0.989
GZ 0.973 1.000 0.999 0.844 0.993
ˆ2 (
yx2 (
)( x22
)(
x32
) x32
( )
(
yx3 )( x2 x3
x2 )2
x3()
0 0
)
ˆ3
(yx3)(x22 ) (yx2 )(x2x3) (x22 )(x32 ) (x2x3)2
(0) 0
则无法确定ˆ2、ˆ3的数值。
0.8454 Mean dependent var 1.7589
Adjusted R-squared
0.8313 S.D. dependent var
0.7670
S.E.of regression
0.3150 Akaike info criterion 0.6398
Sum squared resid
注意:
较高的简单相关系数只是多重共线性存在的 充分条件,而不是必要条件。特别是在多于 两个解释变量的回归模型中,有时较低的简 单相关系数也可能存在多重共线性。因此并 不能简单地依据相关系数进行多重共线性的 准确判断。
二、综合判断法
R2 (或R2)大,F值大;t 值小,说明模型存在多重共线性
这是因为:R2和F值大,表明总离差中95%(假定R2 0.95) 是由回归解释的,各解释变量对Y的联合线性作用显著。 在此前提下,若各个t值很小,说明各解释变量之间存在共线 性,对Y的独立作用不能分辨,故t检验不显著。
一般来讲,多重共线性难以避 免,所以我们关心的不是多重 共线性的有无,而是多重共线 性的程度。
第二节 多重共线性产生的后果 一、完全多重共线性下的后果
1、参数估计值不确定
例:以二元线性回归模型为例
如两个解释变量完全相关: 例如设 x2 x3, 则ˆ2、ˆ3的分子、分母均为(0 不定式)
一、简单相关系数检验法
含义:简单相关系数检验法是利用解释变 量之间的线性相关程度去判断是否存在严 重多重共线性的一种简便方法。
判断规则:一般而言,如果每两个解释变 量的简单相关系数(零阶相关系数)比较高, 例如大于0.8,则可认为存在着较严重的多 重共线性。
例如(例1)
X2 X2 1 X3 0.999
检验基本假定是否满足的检验称为计 量经济学检验。
回顾6项基本假定
(1)解释变量间不相关(无多重共线性)
(2)E(ui)=0
(随机项均值为零)
(3)Var(ui)=2 (同方差)
(4)Cov(ui, uj)=0(随机项无自相关) (5)Cov(X, ui)=0(随机项与解释变量X不