当前位置:文档之家› 多重共线性

多重共线性


虽然x2和x3的水平之可能高度相关,但是,其差分形式相关 程度往往较低。因此,一阶差分回归常能减低多重共线性 的严重程度。(对于横截面数据,一阶差分不适用。 差分法的问题:随机误差项可能存在序列相关;损失了一 次观测值,因而减少了一个自由度,如果样本容量本身就 不大,这可能会有影响。
六、多重共线的克服



2 2 x i )(

3i ) ( xBiblioteka 2 3 x i)( x
i x 3i )( y

2i x 3i ) x
2
ˆ ) Var( 2
3i ) 2i x

2
2 2 2 x i (1 r23 )
yi 1 ( 2 3 ) x2i i 或将x3i=x2i 代入原模型: 令 2 3 *
ˆ *有唯一解
偏回归系数无确定解的含义:无法从所给样本中将x2和x3的影响分离出来: 当x2发生变化时,x3也按一个倍数因子改变。
三、多重共线的实际后果

完全多重共线是一种极端情形,非完全多重共线更常见。 非完全多重共线下,OLS估计量仍是最优线性无偏估计量, 但有如下后果:

ˆ ) Var( 2
4. 补充新数据:以二元回归为例
ˆ ) Var( 2

2
2 2 2 x ( 1 r t 23 )
当r23给定时,增加新样本,通常可以使 ˆ 的方差,使我们能更准确地估计 。 从而减少 2 2

2 2 x t 增大,
习题:

现有美国70-83年进口(百万美元)、GNP (10亿美元)和消费者价格指数(CPI)数据。 请考虑一下模型:
ln yt 1 2 ln pt 3 ln I t t
在时间序列数据中,价格和收入变量一般都有高度共 线的趋势。如果作上述回归时存在高度共线问题,可 利用横截面数据估计收入弹性3,因为这些数据都产 生于一个时间点上,价格还不至于有多大变化。令收 ˆ ,原回归可化为: 入弹性的横截面估计为 3
三、多重共线的实际后果

由于方差膨胀,接受零假设更为容易, 出现多个偏回归系数单零t检验不显著。
ˆ 2 t ˆ ) se( 2 ˆ ) , t se( 2


虽然单零检验不显著,但是联合检验(F 检验)却显著,总的拟合优度也很高。 OLS估计量及其标准误对数据的小变化敏 感。
四、多重共线产生的原因
yt=b1+b12x2t+1t
E(b12 ) = 2 + 3 b32 b12是的一个有偏且非一致的估 计,无法得到反映x2对y的净影响的系数2
六、多重共线的克服
3. 差分法:时间序列数据间往往有较强的相关性, 减小相关性的方法是形成一次差分方程:
yt yt 1 2 ( x2t x2,t 1 ) 3 ( x3t x3,t 1 ) t 其中: t t t 1
二、完全多重共线的估计问题

以二元回归为例:
ˆ 2 (
yi 1 2 x2i 3i x3i i

i x 2i )( y (
0 0 ∴如果出现完全多重共线,则偏回归系数是不确定的,其标 准误是无穷大。 ˆ , var( ˆ ) 设:x3i=x2i (r23=1) 代入上式: 2 2

容许度与方差膨胀因子
容许度TOL i (1 Ri2 ) 方差膨胀因子VIFi 1 1 Ri2 1 TOLi
经验规则:VIF>10 则说该变量是高度 共线的。
六、多重共线的克服
1. 横截面数据与时间序列数据并用

例如研究汽车需求,假定有销售量、平均价 格和消费者收入的时间序列数据,模型为:
五、多重共线的识别


注意:多重共线是个程度问题,而不是有无问 题。 识别方法:

R2值高,F检验显著,但显著t值少。 回归元间有高度两两相关(充分而非必要条件)。 本征值(eigenvalues)和病态指数(condition index)
病态指数CI 最大本征值 最小本征值
病态指数CI在10-30之间,中强多重共线 CI>30,严重多重共线
yt* 1 2 ln pt t ˆ ln I 其中:y * ln y
t t 3 t
六、多重共线的克服
2. 剔除变量:对严重多重共线,最简单的做法之 一是剔除共显著变量之一。但从模型中剔除一 个变量,可能导致设定偏误。
yt=1+2x2t+3x3t+t 剔除一变量后变为:
1



2
2 2 2 x ( 1 r i 23 )
∴估计精度较低
2 1 r23
VIF
称为方差膨胀因子
VIF表明:估计量的方差由于多重共线的出现而膨胀起来。

当r23=0.7时,VIF=1.96 ˆ ) var( 当r23=0.9时,VIF=5.76 即: 2 是r23为零时的5.76倍。 ˆ ) 是无共线时的10倍。 var( 当r23=0.95时,VIF=10.26 即: 2

数据采集方法:解释变量取值范围过小; 模型或从中取样的总体本身的特点

例:在作电力消费对收入和住房面积的回归 时,一般来说,收入较高的家庭住房面积也 较大。
2 如多项式回归:yi 0 1xi 2 xi i

模型设定问题


一个过度决定的模型:

解释变量个数>样本容量
一、多重共线性的性质


完全多重共线:对解释变量x1, x2, … xk, 如果存在一组不全为0的常数1、2、… k,使得: 1x1i+ 2x2i+ …+ kxki=0 非完全多重共线:包括变量间交互相关 情形如下: 1x + 2x + …+ kx + =0 1i 2i ki i
五、多重共线的识别

辅助回归:作每一个xi对其余x变量的回归, 并计算R2,记为 Ri2 。这种回归叫辅助回归, 以辅助y对x的回归。然后计算统计量:
Fi Ri2 /(k 2) (1 Ri2 ) /(n k 1)
~(k-2, n-k+1)的F分布
当Fi显著时,认为xi与其余的x有共线性。
相关主题