第5章 多重共线性
习题:
1. 什么是共线性?什么是多重共线性?
答:共线性是指回归模型中的各个解释变量之间不存在线性关系。
“多重共线性”一词常常用来表示解释变量之间具有较高的共线性程度,但又不是完全共线性的情形。
2. 在k 变量的模型中有k 个正规方程用以估计k 个未知系数。
假定X k 是其余X 变量的一个完
全线性组合,你怎样说明在这种情形中不可能估计这k 个回归系数?
答:当一个变量是另一些变量的线性函数时,在这k 正规个方程中,实际只有k-1个有效方程,利用线性代数的知识我们可以知道k-1个方程是无法准确估计k 个未知数的。
3. 一般来说,如何判断模型中是否存在严重的多重共线性问题?
答:(1)2R 较高但t 值显著的系数不多。
(2)解释变量两两高度相关。
(3)观察每个解释
变量对其它剩余解释变量的回归方程,这样的回归称为辅助回归。
如果某个辅助回归方程的拟合优度显著不为零(即整体显著:F 检验),则存在多重共线性。
(4)使用方差膨胀因子判断。
克莱因经验法则(Klein ’s rule of thumb )
如果某个解释变量还有一些诸如偏相关系数(partial correlation coefficient )、本征值(eigenvalues )或病态指数(condition index )等其他方法可用于诊断多重共线性的程度。
对其余解释变量的辅助回归的拟合优度大于因变量Y 对所有解释变量作回归所得到的拟合优
度2R ,则可能存在比较严重的多重共线性。
4. 什么是方差膨胀因子(VIF ),它有什么作用? 答:22322222323ˆvar()()()()i i i i i x x x x x βσ⎡⎤=⋅⎢⎥-⎣⎦
∑∑∑∑ 即 222222222323222231ˆvar()1()()1i i i i i i x r x x x x x σσβ⎡⎤⎢⎥⎢⎥==⋅⎢⎥⎛⎫-⎢⎥- ⎪⎢⎥⎝⎭⎣⎦
∑∑∑∑∑ (5.7)
其中23r 是解释变量2X 和3X 的(样本)相关系数,介于1-与1+之间。
223r 正好是2X 对3X 回归的拟合优度(也是3X 对2X 回归的拟合优度)。
1 称22311VIF r =-
为方差膨胀因子。
于是
22
22ˆvar()i VIF x σβ=⋅∑ (5.8)
与此相类似, 2323ˆvar()i VIF x σβ=⋅∑
于是我们可以用VIF 作为一种测定多重共线性的手段,当检测到较大的VIF 时,就有可能存在多重共线性问题。
5. 在一个关于某城市用水量的分析中,估计出了如下的方程(15n =):
2326.90.3050.3630.005 ( 1.7) (0.9) (1.4) (0.6) 17.87 1.123 0.93 38.9 ( 1.2) watc house pop pci t prwat rain R F =-++-=----==- (0.8) -
其中,watc=总用水量,house=总的房屋套数,pop=总人口, pci=人均年收入, prwat=水价, rain=年降雨量,括号内的数值是t 统计量。
(1)根据经济理论或直觉,你认为每个回归系数的符号应该是什么,为什么?估计出来的
系数的符号与你的推测一致吗?
(2)每个系数的t 统计值都不显著,但是F 统计值是显著的,导致这种矛盾的原因是什么?
(3)这些估计量是有偏的、无效的或者不一致的吗?
答:(1)house 的系数应该是正的,因为房屋越多,住户也就越多,用户量也会增加。
模型中和推测的一致;pop 的系数也应该是正的,因为人越多,用水量肯定也越多,模型中和推测一致。
Pci 的系数应该是正的,因为当人的收入多时,也就不会珍惜使用每一滴水来减少花费,模型中和推测不一致;prwat 的系数应该是负的,因为当水价上升时,对于那些在意
1 见第2章习题2.8。
水价格的人们将会降低对水的使用,从而水的用量降低,模型中和推测一致;rain 的系数应该是负的,因为当降水量增加时,用水量必然要减少了,这是由于水量相比较于以前增加了,模型中和推测一致。
(2)导致这种矛盾的原因是多重共线性的存在。
(3)如果保持自变量取值不变且有足够多的样本,利用这些样本计算得到OLS 估计值的平均值将“接近于”真实的参数值,所以说这些估计量是无偏的。
而且多重共线性没有破坏OLS 估计量的最小方差性,但最小的方差也可能比较大。
较大的方差容易导致本该显著的系数不能通过显著性检验。
所以这些估计量是有效的,只是最小方差变大了。
但是这些估计量将是不一致的,因为多重共线性将会带来的后果致使模型估计不准确,也就不能依概率收敛于总体的真值。
6. 考虑下面的数据集:
Y -10 -8 -6 -5 -2 0
2 4 6 8 10 2X 1 2
3 4 5 6 7 8 9 10 11 3X 1 3 5 7 9 11 13 15 17 19 21
假设你想做Y 对2X 和3X 的回归,
(1)你能估计模型参数吗?为什么?
(2)如果不能,你能估计那些参数或参数的组合?
答:(1)不能。
分析数据可以看出,32
21X X =-,即存在完全共线性的关系。
(2)可以估计出Y 和2X 、Y 和3X 、2X 和3X 系数的组合。
7. 判断以下陈述的正误,并给出理由。
(1)尽管存在多重共线性,OLS 估计量仍然是具有BLUE 性质的。
(2)在高度多重共线性的情形下,要评价一个或多个偏回归系数的个别显著性是不可能的。
(3)如果有某一辅助回归显示出高的2R 值,则模型中肯定存在较严重的多重共线性问题。
(4)变量的两两高度相关并不表示高度的多重共线性。
(5)如果分析的目的仅仅是预测,则多重共线性是无害的。
(6)其它条件不变,VIF 越高,相应的OLS 估计量的方差越大。
(7)在多元回归中,如果根据t 检验,全部的偏回归系数个别来说都是不显著的,那么就
不可能得到一个较高的2R 。
答:(1)正确。
无偏性是一个重复抽样的性质,如果保持自变量取值不变且有足够多的样本,利用这些样本计算得到OLS估计值的平均值将“接近于”真实的参数值。
所以无偏性并没有改变。
多重共线性也没有破坏OLS估计量的最小方差性,但最小的方差也可能比较大。
较大的方差容易导致本该显著的系数不能通过显著性检验。
(2)正确。
在严重多重共线性情况下,由于估计的标准误急剧增加,使得假设检验中的t 值变小,从而导致接受零假设,从而无法评估偏回归系数的个别显著性。
(3)错误。
我们可以通过辅助回归检验是否存在多重共线性,如果某个辅助回归方程的拟合优度显著不为零(即整体显著:F检验),则模型中可能存在多重共线性,但是并不表示必然存在。
辅助回归不是检验多重共线性的充分条件。
(4)正确。
变量高度相关并不一定是线性相关,如果是高度非线性相关就不一定会导致严重的多重共线性;即使在两个变量高度线性相关的前提下,也并不意味着严重的多重共线性。
(5)不一定。
如果所观察到的共线性关系能够在新的未来的数据中保持下去,则此论断正确,如果不是,则错误。
(6)正确。
从公式可以看出
2
22
2
ˆ
var()
i
VIF
x
σ
β=⋅
∑
,如果其他条件不变的情况下,VIF越
高,相应的OLS估计量的方差越大。
(7)错误。
这是多重共线性的“典型”特征就是:2
R较高但t值显著的系数不多。
如果2R 较高,比如在0.8以上,F检验通常会拒绝零假设,即解释变量联合起来对被解释变量有影响,但单个系数能通过显著性检验(t检验)的不多。
这说明即使根据t检验,全部的偏回归系数个别来说都是不显著的,那么也有可能得到一个较高的2
R。