第6章 多重共线性本章专门讨论古典假设中无多重共线性假定被违反的情况,主要内容包括多重共线性的概念、产生的原因和表现、产生的后果、多重共线性的检验方法及无多重共线性假定违反后的解决方法。
6.1多重共线性的概念在第三章的多元线性回归模型的建立中,强调了无多重共线性,即假定各解释变量之间不存在线性关系,或者各解释变量的观测值之间线性无关。
计量经济学中的多重共线性是指模型中各解释变量的线性关系,它不仅包括解释变量之间精确的线性关系,还包括解释变量之间近似的线性关系,因此多重共线性也就表现为完全多重共线性和近似多重共线性。
6.1.1完全多重共线性从数学意义上去说明多重共线性,就是对于解释变量k X 、、X X 32,如果存在不全为0的数k λλλ,2,1 ,能使得n ,2, ,1i033221 ==++++kik iiXXXλλλλ ( 6.1.1 )则称解释变量k X X X ,,,32 之间存在着完全的多重共线性 用矩阵表示,解释变量的数据矩阵为:X=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡kn nnk k X XXX XXXX X322322213121111(6.1.2) 当矩阵X 的秩小于k 时,表明其中至少有一个列向量可以用其余的列向量线性表示,则说明存在完全多重共线性。
6.1.2不完全的多重共线性在实际经济问题中,完全的多重共线性并不多见。
比较常见的是解释变量kXX X ,,,32 之间存在不完全的多重共线性。
所谓不完全的多重共线性,是指对于解释变量k X 、、X X 32,存在不全为0的数k λλλ,2,1 ,使得 n ,2, ,1i033221 ==+++++i kik iiu XXXλλλλ (6.1.3)其中,i u 为随机变量。
这表明解释变量k X 、、X X 32存在一种近似的线性关系。
如果k 个解释变量之间不存在完全或不完全的线性关系,则称无多重共线性①。
若用矩阵表示,这时X 为满秩矩阵,即Rank(X)=k 。
总之,回归模型中解释变量的关系用相关系数表示出来有三种情形:①0=j x i x r ,解释变量间不存在线性关系,变量间相互正交。
这时不需要作多元回归,可以通过Y 对X j 的多个一元回归来估计每个参数值βj 。
②1=j x i x r ,解释变量间存在完全共线性。
此时模型参数将无法估计。
当两变量按同一方式①解释变量之间不存在线性关系,并非不存在非线性关系,当解释变量存在非线性关系时,并不违反无多重共线性假定。
变化时,要区别每个解释变量对被解释变量的影响程度非常困难。
③10<<j x i x r ,解释变量间存在不同程度的线性关系。
随着共线性程度的加强,会对参数估计值的准确性、稳定性带来不同的影响。
因此分析多重共线性的程度是研究的重点问题。
6.2实际经济问题中的多重共线性在实际经济问题中,多重共线性的产生主要是由于经济现象变化的多个影响因素之间存在一定的相关性。
主要表现为以下几种情形: 1)经济变量之间具有共同变化趋势在时间序列中,反映经济总体状况的数据指标会出现同样的变化趋势。
例如,收入水平、消费水平和就业率在经济繁荣时期均呈现增长的趋势,而在经济衰退期都出现下降。
当这些变量同时作为模型中的解释变量时就会产生多重共线性。
2)滞后变量的引入在经济计量模型中,往往需要引入滞后变量来反映真实的经济状况。
例如,消费水平与人们的当期收入和前期收入密切相关,在建立模型时,就需要引入,,21--t t XX等多个滞后变量,它们与X 变量之间存在高度相关性,因此导致出现多重共线性。
3)截面数据的使用利用截面数据建模时,许多变量变化与发展规模相关,会呈现出共同增长的趋势,例如资本、劳动力、能源等投入与产出的规模相关,这时容易出现多重共线性。
有时如果部分因素的变化与另一部分因素的变化相关程度较高时,也容易出现共线性。
如钢铁产量与原材料用量、劳动力人数、厂房面积、生产投入资金建立回归模型,发现回归效果较差,原因是生产投入资金的影响已经通过原材料和劳动力两个因素体现出来,三者之间存在较严重的多重共线性。
4)样本资料自身的限制抽样选取的样本只是总体解释变量取值中的一个有限范围,会使得变量的变异不大;由于总体受限,多个解释变量的样本数据之间存在相关关系,也会造成样本的多重共线性;另外,客观上完全符合理论模型所要求的样本数据较难收集,也会使得特定样本存在某种程度的共线性。
这一点在时间序列数据模型中表现更加明显。
6.3多重共线性问题的后果6.3.1完全多重共线性下产生的后果 1)参数的估计值不存在完全共线性时,X 矩阵的秩小于k ,此时0='X X ,正规方程组的解不惟一,()1-'X X 不存在,回归参数的最小二乘估计表达式不成立。
例如,在两个解释变量的回归模型i iii u XXY +++=33221βββ中,假定iX2与iX3之间存在完全多重共线性,即iiXX32λ=,λ是一个非零常数,则有:()()()()()()()00ˆ2332232323332332=--=∑∑∑∑∑∑∑ii i i i iiiiiix x x x x xx y x x y λλλλβ (6.3.1)()()()()()()()0ˆ22322323223323233=--=∑∑∑∑∑∑∑ii iii i i i i x x x x x y x x y λλλλλβ (6.3.2)这说明当iiXX32λ=时,参数的估计值是不确定的。
例6.1:用商品价格和每周收入作某一商品需求量的回归分析表6.1Y(需求量)X2(价格)X3(每周收入) X4(每周收益)491 298 297.5 452 296 294.9 443 294 293.5 39 4 292 292.8 38 5 290 290.2 376 288 289.7 34 7 286 285.8 33 8 284 284.6 309 282 281.1 2910280278.8点击proc —make equation ,弹出如图6.1所示的对话框图6.1由此可见无法对Y 进行回归拟合,分析后发现这是因为iiXX122300-=,()122==rR,也就是说收入变量与价格变量完全线性相关,二者存在完全多重共线性。
2)参数估计值的方差无限大对两个解释变量的回归模型进行OLS 估计,其参数的方差为21V a r-C o v ()=()σ-'^βX X,在完全共线性情况下,iiXX32λ=,则有∞==-=-=∑∑∑∑∑∑∑∑∑2232233232322322322322232^)()())(()(σσλλσβx x x x x x x x x x x Var (6.3.3)同理 ∞==-=∑∑∑∑∑2222233232322323^)())(()(σσλλλβx x x x x x Var (6.3.4)这表明,当解释变量之间存在完全的共线性时,参数估计值的方差将变成无穷大。
这直接导致模型总体参数的置信区间变大,使回归方程的可决系数2R 很高,但对各个参数单独的 t 检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论,从而使普通最小二乘估计量的精确度降低,使变量的显著性检验失败。
6.3.2不完全多重共线性下产生的后果在实际经济问题中,解释变量之间往往存在不完全共线性,在这种情况下,通过回归可以得到参数的估计值。
在例6.1中,作X2,X4对被解释变量Y 的回归方程,结果如图6.2所示:图6.2从理论上说,在接近共线性的情形下仍能进行最小二乘估计,而且该估计量是无偏的,能满足最小二乘估计量的最小方差性,但是实际上,共线性的存在对计量经济分析可能会产生一系列的影响。
1)参数估计值的方差增大以两个解释变量的回归模型为例,假设2X与3X存在不完全的共线性,即i i i v x x +=32λ,其中,0≠λ,i v 是满足∑=02i i v x 的随机误差项。
由此可得出OLS 法估计的回归系数:()()()()()()()2232232232233223233ˆ∑∑∑∑∑∑∑∑∑∑-++-+=iiiiiiiiiii i i x x v xx v y x y v xx y λλλλλβ(6.3.5)因此在2X 与3X 近似共线性时,3ˆβ还是可以估计的。
但是,如果2X 与3X 共线程度越高,i v 会充分地小,以至于非常接近于零,此时3ˆβ会愈加趋于不确定。
对于2ˆβ也可推出类似的表达式,并得到类似的结论。
在2X 与3X 为不完全的共线性时,2X 与3X 的相关系数的平方用离差形式可表示为 ∑∑∑=2322232223)(x x x x r可以证明得到22322322232^)())(()(σβ∑∑∑∑-=x x x x x Var()∑-=2232221r x i σ(6.3.6)()()∑-=22323231ˆvar r x i σβ (6.3.7)()()∑∑--=2322223223321ˆ,ˆcov ii x x r r σββ (6.3.8)从(6.3.7)和(6.3.8)式中可以看出,随着共线性增加,23r 趋于1,两个参数估计量的方差也将增大。
同样地,其协方差在绝对值上也会增大。
2)参数的置信区间趋于变大存在多重共线性时,参数估计值的方差增大,其标准误差也增大,导致总体参数的置信区间也随之变大。
同上例,假设方差已知,在置信度为95%的水平下,当23r 取不同的值时,置信区间也会相应发生变化,相关系数越高,3β的置信区间越大。
见表6.2所示:表6.2 增加共线性对3β的95%置信区间()33ˆe 1.96ˆββs ±的影响3)参数估计量经济含义不合理当模型中两个解释变量具有线性相关性,即i i i v x x +=32λ时,ii XX 32和前的参数32ββ和并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响,因此当二者呈现同方向变化时,无法准确地将二者的影响分离开来,这是估计的参数也失去了原有的经济意义。
4)严重多重共线时,假设检验容易作出错误的判断存在严重多重共线时,参数的置信区间扩大会使得接受一个本应拒绝的假设的概率增大;另外,在对回归系数进行t 检验中,)ˆ(ˆ33ββVar t =,在高度共线性时,参数估计值的方差增加较快,会使得t 值变小,从而容易产生接受原假设的结论。
5)模型的预测功能减弱在给定的置信水平α-1下,0Y 的置信区间为()'01'21XXXXt Y-∧+⨯±α显然,当解释变量之间存在多重共线性时,由于()1'-X X 非常大,所以其置信区间也很大,因此,模型的预测功能会减弱。
6.4多重共线性问题的检验由于多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是采用统计方法以下我们采用中国电信业务总量的计量经济模型作为实例分析例6.2: 中国电信业务总量的计量经济模型②②案例来源: 张晓桐,《计量经济学基础(第3版)》,南开大学出版社,2007年9月表6.3年份电信业务总量y 邮政业务总量x1中国人口数x2市镇人口比重x3人均GDPx4人均消费水平x51991 1.5163 0.5275 11.5823 0.2637 1.879 0.896 1992 2.2657 0.6367 11.7171 0.2763 2.287 1.070 1993 3.8245 0.8026 11.8517 0.2814 2.939 1.331 1994 5.9230 0.9589 11.9850 0.2862 3.923 1.746 1995 8.7551 1.1334 12.1121 0.2904 4.854 2.236 1996 12.0875 1.3329 12.2389 0.2937 5.576 2.641 1997 12.6895 1.4434 12.3626 0.2992 6.053 2.834 1998 22.6494 1.6628 12.4810 0.3040 6.307 2.972 1999 31.3238 1.9844 12.5909 0.3089 6.534 3.1431)相关系数检验法相关系数检验法是利用解释变量之间的线性相关程度来判断是否存在严重多重共线性的一种简便方法。