当前位置：文档之家› 第六章多重共线性

第六章多重共线性

假定2 假定2 同方差假定：Var(u 同方差假定：Var(ui)= σ u 2, i=1,2,…n i=1,2,… 上式表明，各次观测值中u 上式表明，各次观测值中u具有相同的方差，即各次观测所受到的随机影响的程度相同，称为等方差性。违反假定：异方差
假定3 假定3 无自相关假定： Cov(ui, uj)=0, i ≠ j, i,j=1,2…..n i,j=1,2… 表明任意两次观测的u 表明任意两次观测的ui, uj是不相关的，即 u在某次的观测值与任何其它次观测中的值互不影响，称为无序列相关性。等方差性和无序列相关性称为高斯— 等方差性和无序列相关性称为高斯—马尔柯夫（Gauss-Markov）假定。尔柯夫（Gauss-Markov）假定。违反假定：自相关
注意接近共线性并未破坏最小二乘估计量的最小方差性：在所有线性无偏估计量中，OLS 小方差性：在所有线性无偏估计量中，OLS 估计量的方差最小。最小方差并不意味着方差值本身也比较小。
注意即使变量总体之间不线性相关，但却可能与某一样本线性相关多重共线性本质上是一个样本（回归）现象。原因：大多数经济数据不是通过试验获得。如：国民生产总值、价格、失业率、利润、红利等，是以其实际发生值为依据，而并非试验得到。
这个指标度量方差增加的速度
R2 和 VIF 当 R2 增加时， VIF也随着增加 VIF也随着增加
如果大于10 如果大于10 ，就表明有问题
R
2 2
0 1
0.5 2
0.8 5
0.9 10
0.99 100
VIF=1/(1- R )
注意 R2较高，标准差未必一定大。也就是说它不一定扩大估计量的标准差。辅助回归方程的R 辅助回归方程的R2可能只是多重共线性的一个“表面指示器” 一个“表面指示器”。更正规的表述为：“较高的R 更正规的表述为：“较高的R2既不是较高标准差的必要条件也不是充分条件，多重共线性本身并不必然导致较高的标准差。” 共线性本身并不必然导致较高的标准差。”
假定4 假定4 随机项与自变量不相关： Cov(ui, x1i)=0； Cov(ui, x2i)=0 )=0；区分随机项u与每个自变量各自对y 区分随机项u与每个自变量各自对y的影响。如果x是非随机变量，即x 如果x是非随机变量，即x是在重复抽样中取某固定值，该条件自然满足。
假定5 假定5
变量之间有共同的时间趋势模型的过定（ overdetermined） overdetermined）
解释变量的数目多于观测的数目。
多重共线性的理论后果在存在高度多重共线性的情形下，即使多元回归方程的一个或者多个偏回归系数是统计不显著的，普通最小二乘估计量仍然是最优线性无偏估计量。
注意无偏性是一个重复抽样的性质，即：保持X 无偏性是一个重复抽样的性质，即：保持X 不变，如果得到一些样本并用OLS计算这些不变，如果得到一些样本并用OLS计算这些样本估计量，则其平均值收敛于估计量的真实值。但这并不是某个样本估计值的性质，在现实中，我们经常无法得到大量的重复样本。
总结
检验多重共线性有许多种不同的方法，但却没有一种检验方法能够使我们彻底解决多重共线性问题。多重共线性是一个程度的问题，它是与样本相关的一种现象。有时我们必须综合运用以上各种手段来诊断多重共线性的严重程度。总之，没有一个简单的办法判断多重共线性问题。
补救措施如果t统计量大于2 如果t统计量大于2，就不用担心如果回归的 R2大于任何一个 X对其余 Xs回 Xs回归的R 归的R2 ，就不用担心如果仅仅是对预测感兴趣，并且解释变量的线性组合在未来仍然延续，就不用担心
Y = 24.45 + 0.51X1 (3.81) (14.24) R2= 0.96
收入变量是高度显著的，但是在前一个模型中是不显著的
例：消费函数 Y 只对财富回归：
Y = 24.41 + 0.05X2 t (3.55) (13.29) R2 = 0.96 财富变量也是高度显著的，但是在前一个模型中是不显著的
X1 X2 X3 10 50 52 15 75 75 18 90 97 24 120 129 X1 和 X2 是完全线性相关的：
X2 = 5X1
完全多重共线性若X2 = 5X1 将其代入Y 将其代入Y’=b0 ’ +b1 ’ X1+b2 ’ X2 +b3 ’ X3 Y’=b0 ’ +b1 ’ X1 +b2 ’ * 5X1 +b3 ’ X3 = b0 ’ +（b1 ’ + 5b2 ’ ） X1 +b3 ’ X3 = b0 ’ +A X1 +b3 ’ X3 三变量模型无法从A值中得到b 无法从A值中得到b1 ’ 、b2’的值
检验方法4 检验方法4 方差膨胀因素（Variance 方差膨胀因素（Variance inflation factor ）
var(b j ) =
σ u2
∑X
2 jt
(1 − R 2 ) j
=
σ u2
∑X
2 jt
VIF
VIF =
1 1 − R2 j
其中 R2j 是Xj对其他X的辅助回归的判决系数对其他X
2、获取额外的数据或者新的样本有些情况下，通过获得额外的数据（增加样本容量）就能削减共线性的程度。
var(b j ) =
σ u2
∑ X 2jt (1 − R 2j )
=
σ u2
∑ X 2jt
VIF
获取额外的数据或者新的样本既然多重共线性是一个样本特征，那么在包括同样变量的另一样本中，共线性也许不象第一个样本那样高。关键是能否获得另一个样本，因为收集数据的费用很高。
F = [R2/(k-1)] /[(1-R2)/(n-k)] /(k- /[(1- )/(nk 是 X的数目如果F 如果F大于临界值，则 R2 是显著区别于0的是显著2，考虑Y对X1，X2， X3，X4，X5、 X3，X4，X5、 X6这6个解释变量 X6这的回归辅助回归：用R 辅助回归：用R12 表示X1对其余X 表示X1对其余X 的回归的判决系数……
检验方法1 检验方法1 R2较高但t值显著的不多。这是多重共线较高但t 性的“经典” 性的“经典”特征。
检验方法2 检验方法2 解释变量两两高度相关。
逐对检查解释变量之间的相关系数这些仅仅是一些有用的指示，经过这些探查后可能还会有多重共线性解释变量的组合或许具有相关性
检验方法3 检验方法3 辅助或从属回归：将每个变量对其他剩余变量回归并计算相应的R 余变量回归并计算相应的R2 值，其中每一个回归都被称作是从属或者辅助回归。然后用F 然后用F test 检验 R2 是否显著地区别于0 是否显著地区别于0
解释变量之间不存在线性相关关系，即任意两个解释变量之间无确切的线性关系。用统计学语言，称为非共线性或非多重共线性。非完全共线性是指变量不能完全表示为其他变量的完全线性函数。违反假定：多重共线性
完全多重共线性
完全共线性(Perfect collinearity)的例子完全共线性(Perfect collinearity)的例子：
补救措施（经验法则）从模型中删除不重要的解释变量获取额外的数据或者新的样本重新考虑模型先验信息变量变换其他补救措施
1、从模型中删除不重要的解释变量
对待严重的多重共线性问题，最简单的解决方法就是删除一个或多个共线性变量。
导致“模型设定误差” 导致“模型设定误差”，参数估计量可能是有偏的。建议不要仅仅因为共线性很严重就从一个经济上可行的模型中删除变量。所选模型是否符合经济理论是一个重要的问题。
消费支出对于收入和财富的回归方程 40个观察值： 40个观察值： Y=2.0907+0.7299 X1 +0.0605 X2 t= (0.8713) (6.0014) (2.0641) R2 =0.9672
3、重新考虑模型模型的不恰当设定可能是回归模型存在共线性的原因。
多重共线性的性质
可以获得原始系数的一个线性组合的估计值。当解释变量之间存在完全线性相关或完全多重共线性时，不可能获得所有参数的唯一估计值。既然我们不能获得它们的唯一估计值，也就不能根据某一样本做任何统计推论（也即假设检验）
多重共线性的原因例：消费函数 Y = b0 + b1X1 + b2X2 X1 = income ； X2 = wealth X2 = 5X1 Y = b0 + b1X1 + b2 5X1 Y = b0 + (b1 + 5b2)X1
多重共线性的原因
所用的数据收集方法
例：在X 例：在X的一个限定的范围内抽样
有关被抽样总体的约束：
例：具有高收入的人倾向于有更多的财富
也许有关低收入的富有的人和高收入的没钱人的数据不够充足。
多重共线性的原因模型设定: 模型设定:
例：在模型中加入多项式项，特别是当X的取在模型中加入多项式项，特别是当X 值范围很小的时候。
多重共线性的实际后果 OLS估计量的方差和标准差较大。也就 OLS估计量的方差和标准差较大。也就是说，OLS估计量的精确度下降。是说，OLS估计量的精确度下降。置信区间变宽。 t值不显著， R2较高。 OLS估计量及其标准差对数据的微小变 OLS估计量及其标准差对数据的微小变化非常敏感，也就是说它们趋于不稳定。回归系数符号有误。难以衡量各个解释变量对回归平方和（ESS）或R2的贡献。 ESS）或R
两个变量是如此地高度相关，以至于不能将二者的效应分离出来。
例：消费函数如果将 X2 对 X1 回归，得到：
X2 = 7.54 + 10.19X1 (0.26) ( 62.04) R2 =0 .99 表明，在 X1 和 X2之间有近乎完全的线形关系

e商务文档

第六章多重共线性

相关文档推荐：

e商务文档

第六章 多重共线性

相关文档推荐：

第六章多重共线性