当前位置:文档之家› 计量经济学_庞皓_第二版_第四章_多重共线性(公式详细)

计量经济学_庞皓_第二版_第四章_多重共线性(公式详细)


一、完全多重共线性产生的后果
1 参数的估计值不确定
当解释变量完全线性相关时X矩阵的秩小于k,此时 全共线性的影响。 原式: Yi 1 2 X 2 3 X 3 ui ,采用其离差形式 y 2 x2i 3 x3i
^ ^ ^
X, X 0
OLS 估计式不确定。这里以两个解释变量的回归模型为例,说明完
一、完全多重共线性产生的后果
2 参数估计量的方差无限大
仍以两个变量的多元回归为例,由OLS方法得出偏回归系数的方差如下 式: 2 ^ x3 2 Var ( ) 2 2 2 ( x2 )( x3 ) ( x2 x3 ) 2
x Var ( ) ( x )( x ) ( x x )
或者说,当
X 31 X 32 X 3n
X k1 Xk2 X kn
Rank ( X ) k 时,表明在数据矩阵 X中,至少有
一个列向量可以用其余的列向量线性表示,则说明存在完全的多 重共线性。
不完全的多重共线性
实际中,常见的情形是解释变量之间存在不完 全的多重共线性。 常见的是解释变量之间存在 不完全的多重共线性。即
1.参数估计值的方差增大
仍以只有两个解释变量的回归模型为例,X2与X3不完全的共线性关 系表示为:
X 2i X 3i vi
其中, 0并且vi是具有性质 x3i vi 0的随机误差项。
这种情况下,可以用OLS法估计回归系数2和3 , 将2和3的上述关系式 带到对3的估计式中得:
对于解释变量 1, X 2 , X 3 , X k ,存在不全为0的数 1 , 2 ,k ,使得
1 2 X 2i 3 X 3i ... k X ki ui 0
i 1, 2,..., n
其中, u i 为随机变量。这表明解释变量 1, X 2 , X 3 , X k 只是一种近似的线性关系。
2. rxi x j 1 ,解释变量间完全共线性。此时模型参
数将无法确定。
系。实际中常遇到的情形。
1 ,解释变量间存在一定程度的线性关 3. 0<rxi x j <
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形:
1.经济变量之间具有共同变化趋势。
例如,对于时间序列数据,收入、消费、就业率等,在经济 上升时期均呈现出增长趋势,当经济下滑时,又都呈现出下
模型估计与检验结果分析
●可决系数为0.9897 ,校正的可决系数为0.9870,模 型拟合很好。模型对财政收入的解释程度高达98.9%。
●F统计量为366.68,说明0.05水平下回归方程整体 上显著。
● t 检验结果表明,除了农业增加值、建筑业增加 值以外,其他因素对财政收入的影响均不显著。 ●农业增加值的回归系数是负数。 农业的发展反而会使财政收入减少吗?! 这样的异常结果显然与理论分析和实践经验不相符。 若模型设定和数据真实性没问题,问题出在哪里呢?
在X 2与X 3为不完全共线性时,X 2与X 3的相关系数的平方用离差形式可以表示 为:
2 r23 2 2 x x 2 3
( x2 x3 ) 2
将上式带入到2和3方差估计式中可以得到两个偏回归系数方差估计的 相关系数表达式如下:
Var ( 2 )
2
^
2 2 ( x2 )( x3 ) ( x2 x3 )
2 23
2 3i
2 3i
VIF 表明,参数估计量的方差是由于多重共线性的出现而膨胀起来的。随着
2 共线性的增加r23 趋于1,那么方差的估计量将趋于无穷大。
2.对参数区间估计时,置信区间变大
存在多重共线性时,参数估计值的方差增大,其标准误差也增大,导致 总体参数的置信区间也随之增大。假设方差已知,正态分布下95%置信度下 临界值为1.96,当r23 =0.99时,3的置信区间约比相关系数为零时大10倍。
Mean dependent var 10049.04 S.D. dependent var 12585.51 Akaike info criterion 17.58009 Schwarz criterion 17.90704 F-statistic 366.6801 Prob(F-statistic) 0.000000
此外如果定义VIF=
1 ,(Variance inflation factor)那么上述两式 2 (1-r23 )
^
可以写成更为简单的表达式: Var ( 2 ) Var ( 3 )
^
x x
2
(1 r )
2 23
2 2i
= =
x x
2
2
2 2i
VIF VIF
2
(1 r )
第四章 多重共线性
本章讨论四个问题:
●什么是多重共线性
●多重共线性产生的后果
●多重共线性的检验 ●多重共线性的补救措施
第一节 什么是多重共线性
本节基本内容:
●多重共线性的含义 ●产生多重共线性的背景
一、多重共线性的含义
在计量经济学中所谓的多重共线性(Multi-Collinearity), 不仅包括完全的多重共线性,还包括不完全的多重共线性。 在有截距项的模型中,截距项可以视为其对应的解释变量总 是为1。对于解释变量 1, X 2 , X 3 ,, X k ,如果存在不全为0的 数λ 1 , λ 2 ,...λ k ,使得
^ 2 2 3 2 2 2 3 2 3
2
2
在完全共线性情况下 X 2i X 3带入上式得: i
Var ( Var (

^
^
2
) )
( 2 (
2
3
x x )( x ) ( x x ) x x )( x ) ( x x )
2 3 2 3 2 3 3 3 2 2 3 2 3 2 3 3 3
假定 X 2i X 3i ,这里 是非零常数,将其分别带入上式可得:
2 3
^
^
( yi x3i )( x 23i ) ( yi x3i )( x3i x3i ) ( 2 x 23i )( x 23i ) 2 ( x3i x3i ) 2

0 0 0 0
采用普通最小二乘法得到以下估计结果
财政收入模型的EViews估计结果
Variable
农业增加值 工业增加值建 筑业增加值 总人口 最终消费 受灾面积 截距
Coefficient
-1.907548
Std. Error
0.342045 0.042746 0.765767 0.091660 0.042807 0.048904 8607.753
R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat
0.989654 0.986955 1437.448 47523916 -256.7013 1.654140
( yi x3i )( 2 x 23i ) ( yi x3i )( x3i x3i ) ( 2 x 23i )( x 23i ) 2 ( x3i x3i ) 2
很明显上式是未定式,无法用OLS方法进行估计。 从回归模型的建模思想看,完全的多重共线性使得解释 变量前面的偏回归系数的失去了原有的经济学含义,无法区 两个解释变量对被解释变量的各自的影响。
降趋势。此时变量之间的相关性就比较强。
2.模型中包含滞后变量。
当建模过程中引入滞后变量,由于变量的时间序列之间往往
呈现出较强的线性关系,所以也会导致多重共线性比较严重。
3.利用截面数据建立模型也可能出现多重共线性。
利用截面数据建模,不同截面的变量变化与发展规模 有关,会出现共同增长的趋势,例如,资本、劳动力, 科技、能源投入等要素的投入都呈现出规模经济的特 征。
4.样本数据自身的原因。
抽样仅仅局限于总体中解释变量取值的一个有限范围, 使得变量变异不够大;或由于总体受限,多个解释变 量的样本数据之间存在,这是都会引起多重共线性 (事实这种情况几乎不可避免)。
第二节 多重共线性产生的后果
本节基本内容: ●完全多重共线性产生的后果 ●不完全多重共线性产生的后果
2 x 3
2 2
1 2 ( x x ) 2 3 2 x2 1 x 2 x 2 2 3
x
^
2
2 (1 r23 )
2 2i
Var ( 3 )
x
2
2 (1 r23 )
2 3i
从上式中可以更清楚的看出,随着共线性增加,r23趋于1,两个参数估计量的方差 也将增大。
计量经济学
第四章 多重共线性
引子: 发展农业会减少财政收入吗?
为了分析各主要因素对财政收入的影响,建立财政收 入模型: CSi 0 1 NZ i 2GZi 3 JZZi
4TPOP i 5CUM i 6 SZMi ui
其中: CS财政收入(亿元) ; NZ农业增加值(亿元); GZ工业增加值(亿元); JZZ建筑业增加值(亿元); TPOP总人口(万人); CUM最终消费(亿元); SZM受灾面积(万公顷) 数据样本时期1978年-2007年(资料来源:《中国统计年鉴 2008》,中国统计出版社2008年版)
2

2
x
0
2 3

2
2
2 2 x3
0
这表明,在解释变量之间存在完全共线性时,参数估计量的方差将变成 无限大。
二、不完全多重共线性产生的后果
完全多重共线性只不过是一种极端情形。通常,解释变量之间会存在
相关主题