第七章:多重共线性第一部分:学习目的和要求在经典多元线性回归模型中,其中一个重要假设就是各变量之间是线性无关的。
但在现实中我们建立的多元线性回归模型的各变量之间都会存在一定程度上的线性相关——即存在多重共线性。
本章就是讨论存在多重共线性的情形,主要介绍了多重共线性的概念,多重共线性的理论后果,几种检测多重共线性的方法,以及对多重共线性进行补救的措施。
通过本章的学习我们需要掌握以下几个问题:(1)多重共线性的概念,完全多重共线性和近似多重共线性的异同。
(2)了解多重共线性产生的原因。
(3)理解多重共线性的理论及实际后果,对统计量估计的后果、对参数显著性检验和预测的影响。
(4)掌握并学会运用多重共线性的几种监测方法,主要有样本决定系数检验法、相关系数检验法、辅回归模型检验法、容许度与方差膨胀因子检验法及特征值检验法。
(5)掌握并学会运用多重共线性的补救措施:利用先验信息法、变换模型法、综合使用横截面数据和时间序列数据法、增加样本容量法、删除变量和设定偏误法。
第二部分:练习题一、术语解释1、多重共线性2、完全多重共线性与近似多重共线性3、辅回归4、容许度与方差膨胀因子5、条件指数与病态指数二、简答题1、导致多重共线性的原因有哪些?2、多重共线性为什么会使得模型的预测功能失效?3、如何利用辅回归模型来检验多重共线性?4、判断以下说法正确、错误,还是不确定?并简要陈述你的理由。
(1)尽管存在完全的多重共线性,OLS估计量还是最优线性无偏估计量(BLUE)。
(2)在高度多重共线性的情况下,要评价一个或者多个偏回归系数的个别显著性是不可能的。
R值,则必然会存在高度的多重共线性。
(3)如果某一辅回归显示出较高的2i(4)变量之间的相关系数较高是存在多重共线性的充分必要条件。
(5)如果回归的目的仅仅是为了预测,则变量之间存在多重共线性是无害的。
(6)和VIF相比,容许度(TOL)是多重共线性的更好度量指标。
12233i i i Y X X βββ=++来对以上数据进行拟合回归。
(1) 我们能得到这3个估计量吗?并说明理由。
(2) 如果不能,那么我们能否估计得到这些参数的线性组合?可以的话,写出必要的计算过程。
6、考虑以下模型:231234i i i i i Y X X X ββββμ=++++由于2X 和3X 是X 的函数,那么它们之间存在多重共线性。
这种说法对吗?为什么?7、在涉及时间序列数据的回归分析中,如果回归模型不仅含有解释变量的当前值,同时还含有它们的滞后值,我们把这类模型称为分布滞后模型(distributed-lag model )(见《计量经济学》251页)。
我们考虑以下模型:12313233i t t t t t Y X X X X βββββμ---=+++++其中Y ——消费,X ——收入,t ——时间。
该模型表示当期的消费是其现期的收入及其滞后三期的收入的线性函数。
(1) 在这一类模型中是否会存在多重共线性?为什么? (2) 如果存在多重共线性的话,应该如何解决这个问题?8、设想在模型12233i i i i Y X X βββμ=+++中,2X 和3X 之间的相关系数23r 为零。
如果我们做如下的回归:1221i i i Y X ααμ=++ 1332i i i Y X γγμ=++(1)会不会存在22ˆˆαβ=且33ˆˆγβ=?为什么? (2)1ˆβ会等于1ˆα或1ˆγ或两者的某个线性组合吗?(3)会不会有22ˆˆvar()var()βα=且33ˆˆvar()var()γβ=?9、通过一些简单的计量软件(比如EViews 、SPSS ),我们可以得到各变量之间的相关矩阵:2323232311 1k k k k r r r r R r r ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭。
怎样可以从相关矩阵看出完全多重共线性、近似多重共线性或者不存在多重共线性?三、计算题1、考虑消费函数123i t t t C Y W βββμ=+++ 1,2,,t n = 其中,C 、Y 、W 依次表示消费、收入与财富。
下面是假想数据。
(1) 作C 对Y 和W 的普通最小二乘回归。
(2) 这一回归方程是否存在着多重共线性?你的判断依据是什么? (3) 分别作C 对Y 和W 的回归,这些回归结果表明了什么? (4) 作W 对Y 的回归。
这一回归结果表明了什么?(5) 如果存在严重的共线性,你是否会删除一个解释变量?为什么?2X ——新车,消费者价格指数,1967年=100,未经季节调整; 3X ——消费者价格指数,1967年=100,未经季节调整; 4X ——个人可支配收入,10亿美元,未经季节调整; 5X ——利率,百分数,金融公司票据直接使用; 6X ——民间就业劳动人数(个人),未经季节调整。
(1) 如果你决定使用表中全部回归元作为解释变量,可能会遇到多重共线性吗?为什么?(2) 如果你这样认为的话,你准备怎样解决这个问题?明确你的假设并说明全部计算。
(3) 制定适当的线性或者对数线性的模型,以估计美国对汽车的需求函数。
第三部分:参考答案一、术语解释1、多重共线性:对于经典线性回归模型(CLRM )n i u X X X Y i ki k i i i ,2,1 22110 =+++++=ββββ如果上式中某两个或多个解释变量之间出现了相关性,则称为存在多重共线性。
依据解释变量之间共线性的程度不同,可以分为完全多重共线性和近似多重共线性。
2、完全多重共线性与近似多重共线性:所谓完全多重共线性,是指线性回归模型中的若干解释变量或全部解释变量之间具有严格的线性关系,也就是说,对于多元线性回归模型,若各解释变量k X X X ,,,21 的之间存在如下的关系式:02211=+++k k X X X λλλ式中k λλλ,,,21 是不全为零的常数,则称这些解释变量之间存在完全多重共线性。
当各解释变量k X X X ,,,21 的之间存在如下的近似的线性关系:02211≈+++k k X X X λλλ则可以说上述解释变量之间存在近似多重共线性。
还可以采用如下的方式,在近似线性关系式中,假设0≠i λ,则可将此近似线性关系表示为:i k k i i i i i v X X X X X ++++++=++--αααα 111111其中,/i l l λλα=i v 为随机误差项。
3、辅回归:在变量之间存在多重共线性的情况下,有一个解释变量能由其它解释变量近似的线性表示出来。
为了找出哪个解释变量和其它变量有这种关系,我们可以将每个i X 对其余变量进行回归,即i k k i i i i i v X X X X X ++++++=++--αααα 111111这种回归叫做辅回归,它是相对于Y 对各个X 的主回归而言的。
4、容许度与方差膨胀因子:在含有k 个变量的回归模型中,包括常数项和k-1个回归元,解释变量i X 的偏回归系数的方差可以表示为:222221ˆvar()1i i ii i VIF R x x σσβ=∙=∙-∑∑, 我们定义方差膨胀因子211i iVIF R =-,2i R 为第i 个解释变量与其它解释变量辅回归模型的决定系数。
容许度被定义为211i i iTOL R VIF =-=。
容许度与方差膨胀因子的数值可以被用来检测多重共线性。
5、条件指数与病态指数:条件指数与病态指数是在特征值检验法中用来检测多重共线性所构造出来的两个指标。
条件指数(病态数)CN (condition number ):CN=最大特征数/最小特征数病态指数CI (condition index ):CI =。
二、简答题1、答:经济数据中大量存在多重共线性这一现象,主要原因在于:经济领域很难象其它实验学科那样从控制性试验中获得数据;此外,可能有经济变量结构上的原因,也有数据收集与模型设定方面的原因,具体的,有以下几种:(1)所使用的数据收集方法。
我们只能在一个有限的范围内得到观察值,无法进行重复试验。
(2)模型或从中取样的总体受到约束(经济变量的共同趋势)。
(3)模型设定的偏误。
(4)过度决定的模型。
这种情况尤其容易发生在解释变量的个数大于观测值个数的情形。
由于上述原因,实际应用中,解释变量之间总会存在一定程度的线性相关,因此,问题不是多重线性有无,而是多重共线性的严重程度。
2、答:多元线性回归模型的一个重要应用是经济预测。
对于模型∧∧=βX Y如果给定样本以外的解释变量的观测值0X ,就可以得到被解释变量的预测值∧∧=β00X Y但是,这只是被解释变量的预测值的估计值而不是预测值。
预测值仅以某一个置信水平位于以该估计值为中心的一个区间中。
对于预测的置信区间,我们利用的是构造t 统计量,得到在给定()α-1的置信水平下0Y 的置信区间为 ()()''1''10102/000102/0X X X X t Y Y X X X X t Y -∧-∧+⨯+<<+⨯-αα显然,当解释变量之间存在多重共线性时, ()1'-X X 非常大,故而0Y 的置信区间也很大,因此,模型的预测功能失效。
3、答:辅回归是相对于Y 对各个X 的主回归而言的。
在变量之间存在多重共线性的情况下,有一个解释变量能由其它解释变量近似的线性表示出来。
为了找出哪个解释变量和其它变量有这种关系,我们可以将每个i X 对其余变量进行回归,即i k k i i i i i v X X X X X ++++++=++--αααα 111111,并计算相应的决定系数,分别记为2i R 。
然后,我们在建立统计量:22(2)(1)(1)i i i R k F R n k -=--+ 它服从自由度为k-2和n-k+1的F 分布。
其中n 为样本大小,k 为包括常数项在内的解释变量个数。
如果计算出的i F 超过了相应自由度的临界值,则认为这个i X 和其余的解释变量存在共线性;如果i F 未超过临界值,则认为这个i X 和其余的解释变量不存在共线性。
这种辅回归模型检验不仅可以检验是否存在多重共线性,而且还可以得到多重共线性的具体形式。
4、答:(1)错。
如果变量之间存在完全的线性关系时,我们甚至无法估计其系数或者标准误。
(2)错。
在高度多重共线性的情况下,仍然可以得到一个或者多个显著的t 值。
(3)错。
OLS 估计量的方差有下式给出:2221ˆvar()1iiiR xσβ=∙-∑ 从此式可以看出,一个很高的2i R 可被一个很低的2ˆσ或者很高的2ix∑抵消掉。
(4)错。
如果一个模型只有两个回归元,两两之间的高度相关系数便表示存在多重共线性。
但是在变量之间存在多重共线性的前提下,可能是几个变量之间的关系。