第8讲单方程工具变量回归(完)OLS能够成立的假设之一是解释变量与扰动项不相关。
否则,OLS估计量将是不一致的,即无论样本容量多大,OLS估计量都不会收敛到真实的总体参1,解决方法之一就是本讲介绍数。
然而,解释变量与扰动项相关的例子却很多的工具变量法。
从历史上看,工具变量估计和联立方程系统是同时教授的,更老的教科书仅在联立方程中描述工具变量估计。
然而在最近的几十年,内生性的处理和工具变量估计已经呈现出更广阔的前景,而对于联立方程完整系统设定的兴趣已经减弱。
最新的教材,如Cameron & Trivedi (2005),Davidson & MacKinnon (1993, 2004)和Wooldridge (2010, 2013),把工具变量估计看作现代经济学家的工具包中不可或缺的一部分,用更长的篇幅介绍它,而缩短对联立方程的讨论。
在回归方程中,一个有效(valid)的工具变量应满足以下两个条件:(1)相关性:工具变量与内生解释变量相关;(2)外生性:工具变量与扰动项不相关。
但是,工具变量的这两个条件常常矛盾,即与内生解释变量相关的变量往往与扰动项也相关。
故在实践上,寻找合适的工具变量通常比较困难,需要一定的创造性与想象力。
寻找工具变量的步骤大致可以分为两步:(1)列出与内生解释变量相关的尽可能多的变量的清单(较容易)(2)从这一清单中剔除与扰动项相关的变量(较困难)传统的工具变量法一般通过“两阶段最小二乘法”(2SLS)来实现,顾名思义,即作两个回归。
可以证明,在扰动项的经典假定下,由2SLS得到的工具变2。
这个结论类似于小样本理论中的量线性组合是所有线性组合中最渐近有效的高斯—马尔可夫定理。
第一阶段回归:用内生解释变量对工具变量回归,得到内生解释变量的拟合值。
1在计量经济学中,把所有与扰动项相关的解释变量都称为“内生变量”。
2在条件同方差的情况下,最优GMM还原为2SLS,而最优GMM是渐近有效的。
1第二阶段回归:用被解释变量对第一阶段回归的拟合值进行回归,得到被解释变量的拟合值。
ivregress —Single-equation instrumental-variables regression命令语法:ivregress estimator depvar [varlist] (varlist= varlist) [if] [in] [weight] [, iv21options](2SLS)(LIML)(GMM)命令描述:ivregress拟合被解释变量depvar对varlist和varlist的线性回归,使用varlist iv12作为varlist的工具变量,varlist和varlist是外生(解释)变量,varlist是内生221iv (解释)变量。
ivregress可以利用两阶段最小二乘法(2SLS),有限信息最大似然法(LIML)和广义矩估计(GMM)执行工具变量估计。
备注和示例ivregress执行工具变量回归和加权工具变量回归。
对于工具变量的一般讨论,请参见Baum (2006),Cameron和Trivedi (2005;2010,第6章),Davidson和MacKinnon (1993,2004),Greene (2012,第8章),以及Wooldridge (2010,2013)。
参见Hall (2005)对于GMM估计的明晰介绍。
Angrist和Pischke (2009,第4章)非正式而全面地介绍了工具变量估计量,包括他们在估计处理效应的使用。
ivregress的语法假设从方程系统拟合一个方程,或拟合一个不用指定剩余方程的函数形式的方程。
为了拟合一个完整的方程系统,使用2SLSequation-by-equation或三阶段最小二乘法,请参阅[R] reg3。
ivregress的一个优点是,可以拟合多方程系统中的一个方程,而不用指定剩余方程的函数形式。
形式上,由ivregress拟合的模型是:2ββ+ u y = z + x (1) ii1ii12ΠΠ+ v z = x+ x (2) i2ii21i1其中y是第i个观测值的因变量,z表示内生回归元(varlist),x表示包1ii2i括的外生回归元(varlist),x表示排除的外生回归元(varlist)。
x 和x统称2i2i1iv1i为工具。
u和v是零均值误差项,u和v元素的相关性假设是非零。
iiii2SLS and LIML estimators最常用的工具变量估计量是2SLS。
例1:2SLS estimator我们有从1980年以来的州人口普查数据,包括自有住房价值的中位数(hsngval)和每月总租金的中位数(rent)。
我们想构建rent为hsngval和生活在城市地区的人口比例(pcturban)的函数:rent=β+βhsngval+βpcturban+ u i 12i ii0其中i表示各个州,u是误差项。
i因为随机冲击影响一个州的租金价格,也可能会影响房屋价值,所以我们把hsngval看作是内生的。
我们相信hsngval和u的相关性不等于零。
另一方面,我们没有理由相信pcturban和u的相关性不为零,所以我们假设pcturban是外生的。
因为把hsngval当作内生回归元,所以必须有一个或多个与hsngval相关但与u不相关的其他变量。
此外,这些排除的外生变量不能直接影响rent,因为如果它们影响rent的话,就应该包含在前面指定的回归方程中。
另外,家庭收入变量(faminc)和地区变量(region),与hsngval相关但与误差项u不相关。
总之,pcturban,faminc和因子变量2.region,3.region和4.region构成了一套工具变量。
为了拟合方程,我们指定了因变量和包括外生变量的自变量。
在括号中,我们指定了内生回归元,一个等号,和排除的外生变量。
其他外生变量必须指定在等号的右边;出现在回归方程中的外生变量自动纳入工具变量。
use hsng,clearivregress 2sls rent pcturban (hsngval = faminc i.region)正如所期望的,具有更高房屋价值的州有更高的租金价格。
生活在城市地区的州人口比例对租金没有显著影响。
3技术说明在联立方程的框架下,写出前面拟合的模型为:hsngval=π+πfaminc +π2.region+π3.region+π4.region+ v ii4ii0231ii rent =β+βhsngval+βpcturban+ u i210iii方程系统是递归的,因为hsngval出现在rent的方程中,但rent并没有出现在hsngval的方程中。
然而,在一般情况下,联立方程系统不是递归的。
由于系统是递归的,我们可以用OLS分别拟合这两个方程,如果我们愿意假设u和v是独立的。
例2:LIML estimator理论和Monte Carlo模拟表明,LIML估计量比2SLS估计量可能会得到更小的偏差,并且置信区间的覆盖率更好。
use hsng,clearivregress liml rent pcturban (hsngval = faminc i.region)这些结果与2SLS结果定性相似,尽管hsngval的系数比2SLS的系数高19%左右。
例3:GMM estimator在扰动项的经典假定下,2SLS是最有效率的。
但如果扰动项存在异方差或自相关,则存在更有效的方法,即“广义矩估计”(Generalized Method of Moments,GMM)。
在某种意义上,GMM之于2SLS,正如GLS之于OLS。
从Hansen (1982)的著名论文以来,GMM已成为了经济学和金融学的常用估计方法,它非常适用于工具变量估计。
对于更一般的GMM估计量,参见[R] gmm。
gmm不限定拟合单个的线性方程,尽管语法更复杂。
use hsng,clearivregress gmm rent pcturban (hsngval = faminc i.region), wmatrix(robust)(wmatrix(robust)是默认选项。
指定wmatrix(robust)项要求一个最优加权矩4阵,当误差项存在异方差时。
)例4:GMM estimator with clustering有关于年轻女性的1968年—1988年NLS(National Longitudinal Survey)工资调查数据,我们想要拟合一个工资模型,工资是年龄、年龄的平方、工作任期、出生年份和教育水平的函数。
我们认为影响女性工资水平的随机冲击,也会影响她的工作任期,所以我们把tenure看作内生的。
额外的工具变量包括,是否加入工会,在过去的一年工作周数,婚姻状况。
因为每名女性都有多个观测值(对应于多年的跟踪调查),所以我们要为每个人进行聚类。
use nlswork,clearivregress gmm ln_wage age c.age#c.age birth_yr grade (tenure = unionwks_work msp), wmatrix(cluster idcode)工作任期和教育年限对工资有显著的正效应。
有关GMM估计更多的内容,参见Baum (2006);Baum,Schaffer和Stillman (2003, 2007);Cameron & Trivedi (2005);Davidson & MacKinnon (1993, 2004);Hayashi (2000);Wooldridge (2010)。
参见Newey & West (1987),Wang & Wu (2012)对于HAC协方差矩阵估计的介绍。
例5:Mincer收入方程遗漏变量的处理Mincer(1958)最早研究了工资与受教育年限的正相关关系,但遗漏了“能力”这个变量,导致遗漏变量偏差。
使用美国面板调查数据(NLS)中的年轻男子组,采用工具变量法处理遗漏变量的问题。
该数据集包括以下变量:lw(工资对数),s(受教育年限),age(年龄),expr(工龄),tenure(在现单位的工作年数),iq(智商),med(母亲的受教育年限),kww(在“knowledge of the World of Work 测试中的成绩),mrt(婚姻虚拟变量,已婚=1),rns(美国南方虚拟变量,住在南方=1),smsa(大城市虚拟变量,住在大城市=1),year(有数据的最早年份,1966-1973年中的某一年)。
这是一个两期面板数据。
use grilic,clearcorrelate iq s5(智商(在一定程度上可视为“能力”的代理变量)与受教育年限具有较强的正相关关系(相关系数为0.51))regress lw s expr tenure rns smsa,r(先用OLS回归作为一个参照系,并使用稳健标准差。