当前位置:
文档之家› 第6章 多重共线性的情形及其处理
第6章 多重共线性的情形及其处理
§6.3 多重共线性的诊断
经验表明,当VIFj≥10时,就说明自变量xj与其余自变量 之间有严重的多重共线性,且这种多重共线性可能会过度 地影响最小二乘估计值。
还可用p个自变量所对应的方差扩大因子的平均数来 度量多重共线性。当
1 p VIF VIF j p j 1
远远大于1时就表示存在严重的多重共线性问题。
§6.3 多重共线性的诊断
记X =(X0 ,X1,…,Xp),其中
a. Dependent Variable: Y
§6.3 多重共线性的诊断
b Va riable s Ente red/Remov ed
Mode l 1
Va riables Entered a x5, x3, x4, x2
Va riables Re moved .
Meth od En ter
a. Al l requested variable s entered. b. De pendent Variab le: x1
§6.3 多重共线性的诊断
当某自变量 xj 对其余 p-1 个自变量的复判定系 数 R 超过一定界限时, SPSS 软件将拒绝这个自变量 xj 进入回归模型。 2 R 称 Tolj=1- j 为自变量 xj 的容忍度(Tolerance) , SPSS 软件的默认容忍度为 0.0001。 也就是说, 当 R 2j >0.9999 时,自变量 xj 将被自动拒绝在回归方程之 外,除非我们修改容忍度的默认值。
L22 1 2 L11L22 (1 r12 ) - L12
§6.2 多重共线性对回归模型的影响
由此可得
ˆ ) var( 1
2
(1 r ) L11
2 12
(6.3)
ˆ ) var( 2
2
(1 r ) L22
2 12
(6.4)
ˆ 和 ˆ 的方差将逐渐增大。 可知,随着自变量 x1 与 x2 的相关性增强, 1 2
当 x1 与 x2 完全相关时,r=1,方差将变为无穷大。
§6.2 多重共线性对回归模型的影响
当给不同的r12值时,由表6.1可看出方差增大的速度。 为了方便,我们假设σ2/L11=1,相关系数从0.5变为0.9时, 回归系数的方差增加了295%,相关系数从0.5变为0.95时,回归 系数的方差增加了670%。
(Constant) X1 X2 X3 X4 X5
Unstandardized Coefficients Std. B Error 450.909 178.078 .354 .085 -.561 .125 -7.E-03 .002 21.578 4.030 .435 .052
Collinearity Statistics Tolera nce VIF .001 .001 .315 .018 .040 1963 1741 3.171 55.5 25.2
ˆ x ˆx ˆ y 1 1 2 2
记 L11
x
i 1
n
2 i1
, L12 xi1 xi 2 , L 22 x ,
i 1 i 1 2 i2
n
n
则 x1 与 x2 之间的相关系数为
r12
L12 L11L22
§6.2 多重共线性对回归模型的影响
ˆ ( ˆ , ˆ ) 的协方差阵为 1 2
Mode l Summ ary Mode l 1 R .9997 452991 a R Square .999 Ad justed R Square .999 Std. Error of the Estim ate 175.0 8601
a. Predictors: (Constant), x5, x3, x4, x2
称自变量x1,x2,…,xp之间存在着多重共线性 (Multi-collinearity),也称为复共线性。
§6.1多重共线性产生的经济背景和原因
当我们所研究的经济问题涉及到时间序列资料时,由于 经济变量随时间往往存在共同的变化趋势,使得它们之间就 容易出现共线性。 例如, 我们要研究我国居民消费状况,影响居民消费的 因素很多,一般有职工平均工资、农民平均收入、银行利率、 全国零售物价指数、国债利率、货币发行量、储蓄额、前 期消费额等,这些因素显然既对居民消费产生重要影响,它 们之间又有着很强的相关性。
§6.1多重共线性产生的经济背景和原因
许多利用截面数据建立回归方程的问题常常也存在自 变量高度相关的情形。 例如,我们以企业的截面数据为样本估计生产函数,由于 投入要素资本K,劳动力投入L,科技投入S,能源供应E等都与 企业的生产规模有关,所以它们之间存在较强的相关性。
§6.1多重共线性产生的经济背景和原因
因而β 0,β 1,…,β p 的估计精度很低。这样,虽然用 OLSE 还能得到β 的无偏 ˆ 的变差很大,不能正确判断解释变量对被解释变量的影响程 估计,但估计量β 度,甚至出现估计量的经济意义无法解释。
§6.2 多重共线性对回归模型的影响
我们做y对两个自变量x1,x2的线性回归,假定y与x1,x2都 已经中心化,此时回归常数项为零,回归方程为
c0+c1xi1+c2xi2+…+cpxip=0 , i=1,2,…,n (6.1) 则称自变量x1,x2,…,xp之间存在着完全多重共线性。
在实际经济问题中完全的多重共线性并不多见,常见的是 (6.1)式近似成立的情况,即存在不全为0的p+1个数 c0,c1,c2,…,cp ,使得 c0+c1xi1+c2xi2+…+cpxip≈0 , i=1,2,…,n(6.2)
§6.2 多重共线性对回归模型的影响
设回归模型 y=β0+β1x1+β2x2+…+βpxp+ε 存在完全的多重共线性,即对设计矩阵X的列向量存在不全 为零的一组数c0,c1,c2,…,cp ,使得
c0+c1xi1+c2xi2+…+cpxip=0 , i=1,2,…,n
设计矩阵X的秩rank(X)< p+1,此时|x′x|=0,正规方程 组的解不唯一,(x′x)-1不存在,回归参数的最小二乘估计 ˆ (X X)-1 β X y 表达式 不成立。
此时设计矩阵 X 的秩 rank(X)=p+1 虽然成立,但是此时|x′x|≈0, ˆ 的方差阵 D(β ˆ )=σ 2(X′X)-1 的 (x′x)-1 的对角线元素很大,β
ˆ )的对角线元素即为 var( ˆ ) , var( ˆ ),, var( ˆ ) 对角线元素很大,而 D(β 0 1 p
ˆ )=σ (XX X L 12 1 (X X ) X X
1
L12 L22 - L12 L11
L22 -L 12
- L12 L22 1 2 L11 L11L22 L12 - L12 - L12 L11
ˆ )c 2/L , var( j jj jj
j 1,, p
(6.6)
其中Ljj是xj的离差平方和,由(6.6)式可知用cjj做为衡量 自变量xj的方差扩大程度的因子是恰如其分的。
§6.3 多重共线性的诊断
记R 2 j 为自变量 xj 对其余 p-1 个自变量的复判定系数, 可以证明
1 c jj 1 R2 j
a. Dependent Variable: Y
§6.3 多重共线性的诊断
二、特征根判定法
(一)特征根分析
根据矩阵行列式的性质,矩阵的行列式等于其 特征根的连乘积。因而,当行列式|X′X|≈0时, 矩 阵X′X至少有一个特征根近似为零。反之可以证明, 当矩阵X′X至少有一个特征根近似为零时,X 的列 向量间必存在复共线性,证明如下:
§6.3 多重共线性的诊断
一、方差扩大因子法 记 对自变量做中心标准化,则X*′X*=(rij)为自变量的相关阵。 C=(cij)=(X*′X*)-1 (6.5)
称其主对角线元素VIFj=cjj为自变量xj的方差扩大因子(Variance Inflation Factor,简记为VIF)。根据(3.31)式可知,
2 j
§6.3 多重共线性的诊断
以下用SPSS软件诊断例3.2中国民航客运量一例中的多重共线性问题。
Coefficients a Standar dized Coeffici ents Beta 2.447 -2.485 -.083 .531 .564 t 2.532 4.152 -4.478 -3.510 5.354 8.440 Sig. .030 .002 .001 .006 .000 .000
(Constant) X1 X2 X3 X4 X5
Unstandardized Coefficients Std. B Error 450.909 178.078 .354 .085 -.561 .125 -7.E-03 .002 21.578 4.030 .435 .052
Collinearity Statistics Tolera nce VIF .001 .001 .315 .018 .040 1963 1741 3.171 55.5 25.2
§6.2 多重共线性对回归模型的影响
对非完全共线性 , 存在不全为零的一组数 ,c2 ,…, cp ,使得 0,c 1… 对非完全共线性,即存在不全为零的一组数 c0,cc ,c 1,c 2, p ,使得 c c11 c2x cpx ≈0 , i=1,2,…, i+c 1+ i2+…+ c00+ +c xx +… +cpxip≈ 0ip, i=1,2, …,n n i1 2 xi2
再如,有人在建立某地区粮食产量回归模型时,以粮 食产量为因变量y,以化肥用量x1,水浇地面积x2,农业投 资x3等为自变量,从表面上看,x1,x2,x3都是影响粮食产 量y的重要因素,可是建立的回归方程效果很差。 原因:尽管x1,x2,x3都是影响y的重要因素,但是农 业投资x3与化肥用量x1、水浇地面积x2有很强的相关性,农 业投资主要用于购买化肥和开发水利,即农业投资的效应 已被化肥用量和水浇地面积体现出来。通过分别计算x3与 x1、x2的相关系数得r13=0.98、r23=0.99,呈现高度相关。剔 除x3后重新建立回归模型,结果无乱从预测和结构分析来 看都十分理想。