第七章多重共线性
1909
0.4134 0.7488 0.4658 0.3113
•△Y与△C1之 间的判定系数为
0.7456
1990 1991 1992 1993 1994 1995 1996
18320 21280 25864 34501 47111 59405 68498
10556 11362 13146 15952 20182 27216 34529
•一般认为, 两个变量之间
的判定系数大 于0.8时,两 者之间存在线 性关系。
•由表中的比值可直观地看到,增量的线性关系弱于总量0.8之04间2 的线性关
系。
第七章多重共线性
2、第二类方法:改变解释变量的形式 •(2)采用相对数变量
例:粮食生产模型
粮食产量=f(农用化肥施用量,有效播种面积, 农用机械总动力,农业劳动力) 可改为: 粮食产量=f(农用化肥施用量/有效播种面积,有 效播种面积,农用机械总动力/有效播种面积,农 业劳动力)
0.5762 1854 0.5339 2960 0.5083 4584 0.4624 8637 0.4284 12610 0.4581 12294 0.5041 9093
1196 806 1784 2806 4230 7034 7313
1.083 0.6451 0.2723 0.3892 0.3249 0.3354 0.5721
第七章多重共线性
(3)样本资料的限制
由于完全符合理论模型所要求的样本数据较难收集,特 定样本可能存在某种程度的多重共线性。
一般经验: 时间序列数据样本:简单线性模型,往往存在多重共线 性。 截面数据样本:问题不那么严重,但多重共线性仍然是 存在的。
第七章多重共线性
二、多重共线性的后果 •1、完全共线性下参数估计量不存在
•数量Y •价格X1 •收入X2 •收益X3
•49 •1
•29
•297.
45
2
8
5
44
3
296 294.9
39
4
294 293.5
38
5
292 292.8
37
6
290 290.2
34
7
288 289.7
33
8
286 285.8
30
9
284 284.6
29
10
282 281.1
•LS Y C X1
280 278.8
如果存在
c1X1i+c2X2i+…+ckXki=0
i=1,2,…,n
其中: ci不全为0,即某一解释变量可以用其他解释
变量的线性组合表示,则称为解释变量间存在完全
共线性(perfect multicollineari2X2i+…+ckXki+vi=0 i=1,2,…,n
第七章多重共线性
四、克服多重共线性的方法 • 如果模型被检验证明存在多重共线性,则需
要发展新的方法估计模型,最常用的方法有三类。
• 1、第一类方法:排除引起共线性的变量
找出引起多重共线性的解释变量,将它排除出 去,是最为有效的克服多重共线性的方法。上述用 于检验多重共线性的方法,同时就是克服多重共线 性问题的方法。
在矩阵表示的线性回归模型 Y=X+
中,完全共线性指:秩(X)<k+1,即
•中,至少有一列向量可由其他列向量(不包括第 一列)线性表出。 • 如:X2= X1,则X2对Y的作用可由X1代替。
第七章多重共线性
二、实际经济问题中的多重共线性
一般地,产生多重共线性的主要原因有以下三个方面:
(1)经济变量相关的共同趋势
• 多重共线性表现为解释变量之间具有相关关 系,所以用于多重共线性的检验方法主要是统计 方法:如判定系数检验法、逐步回归检验法等。
多重共线性检验的任务是: (1)检验多重共线性是否存在; (2)估计多重共线性的范围,即判断哪些变量 之间存在共线性。
第七章多重共线性
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说
以逐步回归法得到最广泛的应用。
第七章多重共线性
2、第二类方法:改变解释变量的形式 •(1)采用增量型变量(差分法)
时间序列数据、线性模型:将原模型变 换为差分模型: Yi=1 X1i+2 X2i++k Xki+ i 可以有效地消除原模型中的多重共线性。 • 一般讲,增量之间的线性关系远比总量 之间的线性关系弱得多。
•恰为X1与X2的线性相关系数的平方r2
•由于 r2 1,故 1/(1- r2 )1
•当完全不共线时, r2 =0
•当近似共线时, 0< r2 <1 •当完全共线时, r2=1,
第七章多重共线性
多重共线性使参数估计值的方差增大,1/(1-r2)为方 差膨胀因子(Variance Inflation Factor, VIF)
• 由于|X’X|0,引起(X’X) -1主对角线元素较大, 使参数估计值的方差增大,OLS参数估计量非有 效。
第七章多重共线性
•仍以二元线性模型 y= 1x1+2x2+ 为例:
多重共线性使参数估计值的方差增大, 1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)
•0.566 3
0.5605 0.3520
•Y与C1之间 的判定系数为
0.9845
1986 1987 1988 1989
10133 11784 14704 16466
5773 6542 7451 9360
0.5697 0.5552 0.5067 0.5684
1441 1651 2920 1762
1079 769 909
第七章多重共线性
2020/12/5
第七章多重共线性
一、多重共线性的概念 对于模型
Yi=0+1X1i+2X2i++kXki+i
i=1,2,…,n 其基本假设之一是解释变量是互相独立的。
• 如果某两个或多个解释变量之间出现了 相关性,则称为多重共线性 (Multicollinearity)。
第七章多重共线性
第七章多重共线性
• 另一等价的检验是: 在原模型中排除某一个解释变量Xj,估
计模型; 如果拟合优度与包含Xj时十分接近,
则说明Xj与其它解释变量之间存在共线性。
•缺点:(1)计算繁琐;(2)如果多重共线性 仅存在于其中某几个解释变量之间,辅助回归方 程不能区分出。
第七章多重共线性
(2)逐步回归法
第七章多重共线性
(2)滞后变量的引入
在经济计量模型中,往往需要引入滞后经济变量来反 映真实的经济关系。例如消费变动的影响因素不仅有本 期可支配收入,还应考虑以往各期的可支配收入;固定 资产存量变动的影响因素不仅有本期投资,还应考虑以 往若干期的投资。同一变量的前后期之值很可能有较强 的线性相关性,模型中引入了滞后变量,多重共线性就 难以避免。
结果恰是负的。
第七章多重共线性
4、变量的显著性检验失去意义
•存在多重共线性时 •参数估计值的方差与标准差变大 •容易使通过样本计算的t值小于临界值,
• 误导作出参数为0的推断 •可能将重要的解释变量排除在模型之外
第七章多重共线性
5、模型的预测功能失效
变大的方差容易使区间预测的“区间”变大, 使预测失去意义。
•的OLS估计量为: •如果存在完全共线性,则(X’X)-1不存在,无法得 到参数的估计量。
第七章多重共线性
•例:对离差形式的二元回归模型 •如果两个解释变量完全相关,如x2= x1,则
•这时,只能确定综合参数1+2的估计值:
第七章多重共线性
2、近似共线性下OLS估计量非有效
近似共线性下,可以得到OLS参数估计量, 但参数估计量方差的表达式为
第七章多重共线性
3、第三类方法:减小参数估计量的方差
如果存在多重共线性,需进一步确定究竟由哪 些变量引起。
(1) 判定系数检验法 使模型中每一个解释变量分别以其余解释变量 为解释变量进行回归,并计算相应的拟合优度。
K个辅助方程:
Xji=1X1i+2X2i+j-1Xj-1i+j+1Xj+1i++ KXKi 在得到的K个判定系数中,若Rj2最大,且接近于1, 可以判定相应的Xj与其他解释变量之间存在共线性。 Xj可以用其他解释变量的线性组合代替。
•在引进新解释变量进入回归方程时,
•(1)如果新解释变量在符合经济意义的前提下,能使拟合优度 有所提高,并且每个参数统计检验显著,则采纳该变量。(说明该 解释变量是一个独立解释变量)
•(2)如果新解释变量不能改善拟合优度,同时对其它参数无明显影 响,则可舍弃该变量。(说明它可以用其它变量的线性组合代替)
以Y为被解释变量,逐个引入解释变量,构 成回归模型,进行模型估计。
根据拟合优度的变化决定新引入的变量是否 独立。
如果拟合优度变化显著,则说明新引入的变 量是一个独立解释变量;
如果拟合优度变化很不显著,则说明新引入 的变量与其它变量之间存在共线性关系。
第七章多重共线性
•(2)逐步回归法
•将被解释变量Y对每一个解释变量Xj(j=1,2, …k)分别进行回归,对每 一个回归方程根据经济理论和统计检验进行综合判断分析,从中选 出一个最优的基本回归方程。在此基础上,再逐一引入其它解释变 量,重新作回归,逐步扩大模型的规模,直至从综合情况看出现最 好的模型估计形式。
在一定条件下,某些经济变量会出现同增或同降的趋势。 时间序列样本:经济繁荣时期,各基本经济变量(收入、 消费、投资、价格)都趋于增长;衰退时期,又同时趋于下 降。如果将这些有着共变趋势的变量同时引入模型,就会产 生多重共线性。 横截面数据:生产函数中,资本投入与劳动力投入往往 出现高度相关情况,大企业二者都大,小企业都小。