当前位置:文档之家› 多重共线性

多重共线性

第四章 多重共线性第一节 什么是多重共线性一、多重共线性的含义所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。

对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列向量组线性相关。

则称解释变量23,,,k X X X 之间存在着完全的线性关系。

用数据表示,解释变量的数据矩阵为X =213112232223111k k nnkn X X X XX X X X X ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦当()r X <k 时,也说明解释变量23,,,k X X X 之间存在着完全的线性关系。

当存在完全共线性时,至少有一个变量(列向量)可以用其余的变量(列向量)线性表出。

在实际问题中,完全的共线性并不多见。

常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性,这是指存在不全为零是数123,,,,k λλλλ ,使得12233λλλλ+++++ i i k ki i X X X v =0(i =1,2,,n )其中i v 是随机变量。

这表明此时解释变量之间只是一种近似的线性关系。

二、产生多重共线性的背景1.经济变量之间具有共同的变化趋势2.模型中包含滞后变量3.利用截面数据建立模型也可能出现共线性4. 样本数据自身的原因第二节 多重共线性产生的后果完全共线性时,矩阵X X '不可逆,参数估计式ˆβ=1()X X X Y -''不存在,OLS 无法应用。

不完全的共线性时,1()X X -'也存在,可以得到参数的估计值,但是对计量经济分析可能会产生一系列影响。

一、参数估计量的无偏性依然成立不完全共线性时ˆ()E β=1()E X X X Y -''⎡⎤⎣⎦=1()()E X X X X U β-''⎡⎤+⎣⎦=β+()1()X X X E U -''=β二、参数OLS 估计值方差扩大 如二元回归模型i Y =12233i i i X X u βββ+++中的2X 与3X 为不完全的共线性时,2X 与3X 之间的相关系数23r 可由下式给出223r=2232223()x x x x∑∑∑容易证明2ˆ()Var β=222223(1)i x r σ-∑3ˆ()Var β=222323(1)ixr σ-∑随着共线性的程度增加,23r 的绝对值趋于1,两个参数估计量的方差也增大。

方差扩大的速度决定于方差扩大因子VIF 。

VIF=22311r - 当223r 趋于1时,VIF 趋于无穷大;当223r 等于0时,VIF 将是1。

三、对参数进行区间估计时,置信区间变大 四、假设检验容易做出错误判断 第三节 多重共线性的检验 一、根据回归结果判别判别是否存在多重共线性的最简单(方便)方法是分析回归结果: 如果 发现参数估计值的符号不对某些重要的解释变量t 值低,而R 2不低当一个不太重要的解释变量被删除后,回归结果显著变化则可能存在多重共线性。

其中上述第二种现象是多重共线性存在的典型迹象。

二、简单相关系数检验法如果解释变量间的相关矩阵中,自变量之间的相关系数(简单相关系数)较大时,则可以认为可能存在着较严重的多重共线性。

但是要注意,简单相关系数较高只是多重共线性存在的充分条件,而不是必要条件。

三、方差膨胀因子(VIF )法VIF 是方差膨胀因子(Variance Inflation Factor )的缩写,这是一种比较正规的检验方法。

该方法通过检验指定的解释变量被回归方程中其它全部解释变量所解释的程度来检测多重共线性。

方程中每个解释变量对应一个VIF ,该VIF 是该解释变量相应的系数估计值的方差扩大了多少倍的一个估计值。

高VIF 表明多重共线性扩大了参数估计值的方差,从而产生了一个缩小了的t 值。

检验步骤如下:设原方程为i Y =12233ββββ+++++ i i k ki i X X X u我们可以计算k 个VIF ,每个Xj 对应一个。

为指定的Xj 计算VIF 涉及以下三步: (1)Xj 对原方程中其它全部解释变量进行OLS 回归,即j X =1221111--++++++++ j j j j k k a a X a X a X a X ,(j =2,, k )拟合优度为2j R 。

(2)计算ˆiβ的方差膨胀因子(VIF ) 可以证明,解释变量Xj 参数估计量jˆβ的方差可表示为 ˆ()βj Var =22211σ-∑j jx R =22σ∑j j VIF x 即 j VIF =211-jR (3)分析多重共线性的程度VIF 越高,多重共线性越严重。

没有VIF 临界值表,一般认为VIF>10作为存在严重多重共线性的标准。

需要指出的是,所有VIF 都低,并不能排除严重多重共线性的存在,这与使用相关系数的情况相似。

四、通过条件指数检验(∆)条件指数(Condition Index )是X X '矩阵的最大和最小特征根之比的平方根,指数高,表明存在多重共线性。

也没有条件指数的临界值表,通常认为,大于10即判断存在多重共线性,大于30表明存在严重多重共线性。

第四节 多重共线性的补救措施解决多重共线性问题的思路是利用额外信息或去除共线性的变量,常用的具体方法包括以下几种。

一、增加数据多重共线性实质上是样本(数据)问题。

具体数据之间高度相关的变量,理论上未必高度相关,反之亦然。

因此,用增加观测值、利用不同的数据集或采用新的样本等方法,就有可能消除或降低多重共线性的程度。

如在需求函数i Y =123βββ+++i i i X P u (i =1,2,, n )在时间序列数据中,收入X 和价格P 往往是高度相关的,用时间序列数据估计会产生多重共线性。

然而,在截面数据中则不存在这个问题,因为在某个时间点上P 为常数。

如果取一组截面样本(如5000个家庭),可先估计i Y =12αα++i i X u然后将得到的估计值2ˆα作为一个约束条件(2β=2ˆα)施加于时间序列数据的回归计算中,即估计i Y =123ˆβαβ+++i i i X P u也就是2ˆα-i i Y X =13ββ++i i P u 得到1ˆβ和3ˆβ。

二、对模型施加某些约束条件在存在多重共线性的模型中,依据经济理论施加某些约束条件,将减小参数估计值的方差,如在柯布---道格拉斯生产函数中加进规模效益不变的约束,可解决资本和劳动的高度相关而引起的多重共线性问题。

i Y = i u i i AK L e αβ,i =1,2,,nln i Y = ln ln ln i i i A K L u αβ+++假若规模报酬不变,即αβ+=1 ,将β=1α-代入模型,得到lni iY L = ln ln i i i KA u L α++三、删除一个或几个共线性变量(可用逐步回归实现)这样做,实际上就是利用给定数据估计较少的参数,从而降低对观测信息的需求,以解决多重共线性问题。

删除那些变量,可根据假设检验的结果确定。

应当注意,这样做的结果可能使先前设定的理论模型面目全非,并使得到的参数估计量产生偏倚,因此需要权衡利弊。

四、将模型适当变形 如某商品的需求函数为Q =1234ββββ*++++X P P u式中,Q 为需求量,X 为收入,P 为该商品的价格,*P 为替代商品的价格。

在实际数据中,P 和*P 之间存在高度相关,它们往往同方向变动,模型存在多重共线性。

如果我们仅要求在知道两种商品相对价格变动时对需求量进行预测,则可将需求函数变形为Q =123()γγγ*+++PX v P 就可以解决该模型的多重共线性问题。

在有滞后变量的情形i Y =1231βββ-+++i i i X X u一般而言,i X 和1-i X 往往高度相关,将模型变形为i Y =12131()βββ--'+-++i i i i X X X u 其中,3β'=3β+2β经验表明,∆i X 和1-i X 的相关程度要远远小于i X 和1-i X 的相关程度,因而这种变换有可能消除或减轻多重共线性。

模型的变换有时会不可避免的丢失一部分样本的信息。

五、主成分法(∆)可将共线性变量组合在一起形成一个综合指数(变量),用它来代替这组变量。

构造综合指数的最常用方法是主成分法,做法是对全部解释变量运用主成分分析以得到主成分,每个主成分都是全部解释变量的线性组合,如1C =2233ααα+++ k k X X X其系数23,,,ααα k 的计算涉及X X '矩阵的特征根、计算迭代过程和取值标准,这里不作介绍。

读者需要了解的是,主成分法的特点是,各主成分之间互不相关,并且用很少几个主成分就可以解释全部X 变量的绝大部分方差,因而在出现多重共线性时,可以用主成分替代原有解释变量进行回归计算,然后再将所得到的参数估计值还原成原模型中的参数估计值。

六、岭回归法(∆) (略)处理多重共线性问题时也有人总结以下原则:(1)多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施。

(2)严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。

例如,参数估计值的符号,重要解释变量的t值偏低。

要根据不同情况采取必要措施。

(3)如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题。

存在多重共线性的模型用于预测时,往往不影响预测结果。

相关主题