第3篇高深专题讨论
第13章跨时横截面的混合:简单面板数据方法
13.1 复习笔记
一、数据集的种类
1.独立混合横截面数据
它是在不同时点(经常但并不一定是不同年份)从一个大总体里进行随机抽样的结果。
重要特点:它们都是由独立抽取的观测所构成。
主要性质:保持其他条件不变,它排除了不同观测误差项的相关。
一个独立混合横截面和单独一个随机样本的差异在于,在不同时点上对总体进行抽样很可能导致观测点(即观测结果)不是同分布的情形。
2.面板数据集
它虽然兼有横截面和时间序列维度,但在一些重要方面却不同于独立混合横截面,有时又称纵列数据。
二、跨时独立横截面的混合
1.使用独立混合横截面的理由
如果每个时期都抽取一个随机样本,那么把所得到的随机样本合并起来就给出一个独立混合横截面。
使用独立混合横截面的一个理由是要加大样本容量,把不同时点从同一总体中抽取的多
个随机样本混合起来使用,可以获取更精密的估计量和更具功效的检验统计量,仅当因变量和某些自变量保持着不随时间而变化的关系时,混合才是有用的。
2.对跨时结构性变化的邹至庄检验
(1)对两个时期构造邹至庄检验统计量的方法
①检验的一种形式是,把混合估计的残差平方和看作约束SSR;无约束的SSR则是对两个时期分别估计而得的两个SSR之和。
②先将每一变量对两个年度虚拟变量之一形成交互作用,再检验这个年度虚拟变量和全部交互项是否联合显著。
由于回归模型中的截距常随时间而变,这个成熟的邹至庄检验便能识破是否存在这种变化。
若时期很多,而且解释变量也不少,则构造一套完整的交互项可能十分烦琐。
(2)对多个时期计算邹至庄检验统计量的办法
①使用所有时期虚拟变量与一个或几个或所有解释变量的交互项,并检验这些交互项的联合显著性。
②做一个容许不同时期有不同截距的混合回归来估计约束模型,从而得到SSR r。
然后,对T个时期中的每个时期都做一个回归,并分别得到残差平方和。
无约束残差平方和便是SSR ur=SSR1+SSR2+…+SSR T。
若有k个解释变量(不包括截距和时期虚拟变量)和T 个时期,便需要检验(T-1)k个约束。
而无约束模型中有T+Tk个待估计参数。
所以,若n为总观测次数,则F检验的df为(T-1)k和n-T-Tk。
F统计量:[(SSR r-SSR ur)/SSR ur][(n-T-Tk)/(T-1)k]。
但为了得到—个异方差-稳健的检验,必须构造交互项并做一个混合回归。
二、利用混合横截面作政策分析
1.自然实验与真实实验 当某些外生事件改变了个人、家庭、企业或城市运行的环境时,便产生了自然实验。
一个自然实验总有一个不受政策变化影响的对照组和一个被认为受政策变化影响的处理组,它不同于真实实验。
在真实实验中,处理组和对照组是随机而明确地抽取的;而在自然实验中,对照组和处理组均来自某个具体的政策变化。
为了控制好对照组和处理组之间的系统差异,需要两个年份的数据,一个在政策改变以前,另一个在政策改变之后。
于是样本就按使用目的划分为4组:变化前的对照组、变化后的对照组、变化前的处理组和变化后的处理组。
把对照组称为C ,处理组称为T ,并令处理组T 中观测的dT 等于1,否则等于0。
再令d2为第2个时期的虚拟变量,模型方程为y =β0+δ0d2+β1dT +δ1d2﹒dT +其他因素,
其中,y 是我们关注的结果变量。
δ1度量了政策效应。
若回归中没有其他因素,1
ˆδ就是倍差估计量:
()()12,2,1,1,ˆ,,T C T C δy y y y =-
2.平均处理效应及其估计方法
因度量对y 的平均结果的“处理”或政策效应,有时也被称为平均处理效应。
两种估计方法:
(1)在每个时期都计算处理组与控制组的平均值之差,然后再将不同时期的上述差值进行差分;
(2)分别计算处理组和控制组不同时期的平均值变化,然后将这些变化进行差分,这就意味着是求
()()12,2,1,1,ˆT T C C δy y y y =---
估计值1
ˆδ不会依赖于进行差分的方式。
三、两时期面板数据分析
1.固定效应模型
简单的回归方程很可能遇到遗漏变量的问题。
利用面板数据的方法,是把影响因变量的无法观测因素分为两类:一类是恒常不变的,另一类则随时间而变。
令i 表示横截面单位,t 表示时期,可将含有单个可观测解释变量的模型写成y it =β0+δ0d2t +β1x it +αi +u it ,t =1,2。
变量αi 概括了影响着y it 但又不随着时间而变化的所有无法观测的因素,一般都被称为非观测效应,在应用研究中也常常被称为固定效应,在时间上是固定的,模型被称为非观测效应模型或固定效应模型。
αi 又称为非观测异质性。
误差u it 常被称为特异误差或时变误差,因为它代表因时而变且影响着y it 的那些无法观测的因素。
2.估计β1的方法
给定两年的面板数据,一种可能性是,直接把两年的数据混合起来,然后用OLS 。
这种方法有两个缺点,最重要的一点是,为了使混合的OLS 得到β1的一个一致估计量,就必须假定非观测效应αi 和x it 无关。
模型写成:y it =β0+δ0d2t +β1x it +v it ,t =1,2。
其中,v it =αi +u it 常被称为复合误差。
即使假定特异误差u it 和x it 无关,如果αi 与x it 相关,混合OLS 估计就是偏误且不一致的。
由此造成的偏误有时又被称为异质性偏误,然而,它确实是由于遗漏了一个不随时间而变化的变量所致。
3.一阶差分方程
对横截面的第i个观测值,把两年的方程分别写为
y i2=(β0+δ0)+β1x i2+u i2(t=2)
y i1=β0+β1x i1+αi+u i1(t=1)
如果将第一个方程减去第二个方程,便得到
y i2-y i1=δ0+β1(x i2-x i1)+(u i2-u i1)
或∆y i=δ0+β1∆x i+∆u i。
非观测效应αi被“差分掉”了,该式称之为一阶差分方程。
它是单个横截面方程,但每个变量都取其时间上的差分。
∆u i与∆x i无关。
容许x it与不随时间而变化的无法观测因素相关,因此就不能把αi对y it的影响与不随时间而变的任何变量的影响分离开来。
式中β1的OLS估计量为一阶差分估计量。
另一个关键条件是,∆x i必须因i的不同而有所变化。
另外上式要满足同方差性。
OLS 估计量便是无偏的,而且全部统计推断都是精确的。
4.利用面板数据的差分控制非观测效应的代价
(1)面板数据比单个横截面更难于收集,特别是关于个人的数据。
必须进行一次调查,然后跟踪所有个人再进行另一次跟踪调查。
在进行第二次调查时,要查找跟踪对象通常很困难。
(2)即便得到了一个面板数据集,用于消除αi的差分也可能大大减少解释变量中的变异。
虽然可以利用很大的横截面来克服这一困难,但并非总能奏效。
而且,利用较长时间间隔的差分有时比利用逐年的变化来得好。
5.面板数据的编排
(1)假设有关于城市的两个不同年份的数据。
为了大多数目的,登记数据的最好方法
是,对每个城市都安排两个记录,每年一个,每个城市的第一个记录对应于较早的一年,第二个记录对应于较晚的一年。
这两个记录应该放在相邻位置(如相邻的两行)。
前两个记录用于样本中第一个城市,接下来两个记录用于第二个城市,依此类推。
这样就很容易构造差分并把这些差分贮存在每个城市的第二个记录中,也便于进行能与差分估计相比较的混合横截面分析。
(2)编排两期面板数据的第二种方法
对每个横截面单位仅安排一个记录。
这就需要对每个变量做两次登入,每个时期一个。
把数据都安排在一个记录里,其缺点是无法按照两期的原始数据进行混合OLS 分析。
而且,这种编排方法不适应于多于两期的面板数据集。
四、用两期面板数据作政策分析
面板数据对于政策分析非常有用,特别是项目评估。
项目评估模型中,令y it 为结果变量,并令prog it 为项目参与虚拟变量。
最简单的非观测效应模型为:
y it =β0+δ0d2t +β1prog it +αi +u it
(1)如果项目参与仅发生在第二个时期,那么在差分方程中β1的OLS 估计量就有一个非常简单的表达式:
1ˆtreat control βy y =∆-∆
有了面板数据,便可以对于同样的横截面单位取y 在不同时期的差分,由此得以控制个人、企业或城市特有的效应。
(2)如果项目参与发生在两个时期。
1
ˆβ的解释为:它代表Y 的均值因项目参与所致的。