第1章 两阶段最小二乘法在模型的基本假定中,解释变量与误差项正交保证了参数估计量的无偏性和一致性。
当这一假定被违背时,称解释变量是内生的。
常见的几种情况会导致内生问题:忽略重要的解释变量、变量的测量误差、变量的联立性。
工具变量估计是解决解释变量内生问题的基本方法。
本章介绍工具变量法和两阶段最小二乘法,以及模型内生性检验和过度识别约束检验等问题。
1.1 变量的内生性如果模型中的解释变量与误差项出现相关,即(')E =X u 0,称解释变量是内生的。
导致解释变量内生性的原因有很多,主要的几个原因包括:模型中忽略了重要的解释变量、变量因果关系的双向性、变量的测量误差等。
模型中出现内生解释变量时,OLS 估计量是不一致的。
根据OLS 估计量:11111ˆ(')(')(')(')(')(')N N -----==+=+βX X X y βX X X u βX X X u (1.1) 由假定Rank(X)=K 和大数定律,样本均值的概率极限等于总体均值,可得:1Plim(')E(')N -=≡X X X X A , 1Plim(')E(')N -=≠X u X u 0。
(1.2)又由Slustky 定理,111Plim(')N ---=X X A1ˆPlim E(')-=+≠ββA X u β (1.3)1.2 工具变量估计1.2.1 工具变量在如下模型中,y = X β+ u第i 个解释变量x i 为内生解释变量。
如果存在变量z ,z 满足如下两个条件: 正交条件:与u 不相关,即cor(z, u) = 0相关条件:与x 相关,即cor(z, x i ) ≠ 0,也称为识别约束条件。
那么,z 被称作x i 的工具变量。
1.2.2 工具变量估计设回归模型为:y =X β+u (1.4)其中,解释变量为X (1×K )工具变量为Z (1×K )。
Z 作为工具变量满足正交条件和识别约束条件。
在正规方程组ˆ'()-=X y X β0中,用Z 替换X , ˆ'()-=Z y X β0 (1.5) 解此方程组,可得IV 估计量为:1ˆ(')'-=βZ X Z y (1.6) 将y =X β+u 带入估计量中,可得11ˆ(')'()(')'--=+=+βZ X Z X βu βZ X Z u 可以证明,1ˆE()(')'E()-=+=ββZ X Z u β 1121121ˆVar()E[(')''(')](')'(')(')σσ-----==≠βZ X Z uu Z X Z Z X Z Z X Z X X即IV 估计量是无偏的,但不是有效的。
同时,由111111ˆPlim()Plim[(')(')]Plim(')Plim(')E()n n n i i n N N N N ---→∞→∞--→∞-→∞=+===ββZ X Z u Z X AZ u Z u 0可知,IV 估计量是一致的。
1.3 两阶段最小二乘法设模型中存在K 个内生解释变量,存在L=K 个工具变量。
每个工具变量都必须满足正交条件和相关条件。
如果L=K ,称为恰好识别;如果L>K ,称为过度识别。
即利用其中不同的K 个工具变量,都可以得到不同的估计量。
当然,用任何一组工具变量得到的估计量都是一致的。
因此,现在的问题是如何在这L 个工具变量中找到K 个工具变量使其估计量最有效。
这即是两阶段最小二乘法。
1.3.1 TSLS 估计设模型为:=+y X βu (1.7)其中,解释变量为X (1×K )工具变量为Z (1×L )。
用Z 作为工具变量,Z 满足正交条件和识别约束条件。
首先回归模型=+X Z Πv (1.8)可得1ˆ(')-=ΠZ Z ZX ,并提取拟合值1ˆˆ(')-==X Z ΠZ Z Z ZX 。
令1(')'-=ZP Z Z Z Z ,P Z 为对称幂等矩阵,则ˆ=ZX P X 。
然后,利用ˆX 做为工具变量回归模型,可得IV 估计量为: 11ˆˆˆ(')'(')(')--==ZZβX X X y X P X X P y (1.9) 而ˆˆˆ''''()''====Z Z Z Z ZX X X P X X P P X P X P X X X 。
由此可得: 11ˆˆˆˆˆˆ(')'(')'--==βX X X y X X X y (1.10) 而1ˆˆˆ(')'-X X X y 是y 对ˆX 的OLS 回归估计量。
因此,利用ˆX作为工具变量作IV 回归与利用ˆX 替换X 作LS 回归是等价的。
也正因为此,我们称之为两阶段最小二乘法。
估计步骤归纳如下。
Step1:利用X 对Z 作OLS 回归:=+X Z Πv ;提取拟合值ˆX。
Step2:用ˆX替换X ,直接作OLS 回归。
1.3.22SLS 的渐进特征假定1:令X 表示解释变量(包括常数变量1)。
假定存在L 个工具变量构成的(1×L )向量Z ,满足E(Z 'u )=0。
Z 包含模型中的外生解释变量。
如果模型中存在内生变量,则Z 必须包含模型以外的外生变量。
假定2:(A )Rank(Z 'Z )=L ;(B )Rank(Z 'X )=K 。
(A )条件是指L 个向量Z 不存在完全的线性关系;条件(B )是指Z 与X 充分线性相关,即所有工具变量都必须满足识别约束条件。
条件(B )称为秩条件。
秩条件成立的必要条件是L ≥K 。
即,工具变量的个数至少等于解释变量的个数,称之为阶条件。
由X =Z ∏+v (其中,∏为L ×K 矩阵),两侧同时乘Z 并求期望可得:1'''E(')E(')[E(')]E(')-=+⇒=⇒=Z X Z Z ΠZ v Z X Z Z ΠΠZ Z Z X (1.11)令X *=Z ∏ = Z[E(Z 'Z )]-1 E(Z 'X )。
在X β+u =y 两边同时乘以X *可得,X *'X β + X *'u = X *'y (1.12)求期望可得:E(X *'X )β= E(X *'y ) (1.13)而X *'X = X *'Z ∏ + X *'v , E(X *'X ) = E(X *'Z )∏ + E(X *'v ) = E(X *'Z )∏ E(X *'Z )= E[(X -v ) 'Z ] = E[X 'Z - v 'Z ] = E(X 'Z )将∏ = [E(Z 'Z )]-1 E(Z 'X )带入上两个式子中,可得:E(X *'X ) = E(X 'Z ) [E(Z 'Z )]-1 E(Z 'X )= E(X 'Z ) [E(Z 'Z )]-1 E(Z 'X ) (1.14) E(X *'y ) = E(X 'Z ) [E(Z 'Z )]-1 Z ' y注意,上式中Z 是(1×L )阶,X 是(1×K )阶。
因此, X 'Z 是(K ×L )阶,Z 'Z 是(L ×L )阶,Z 'X 是(L ×K )阶。
如果要估计出β,E(X *'X )必须是非奇异的,当且仅当E(Z 'X )的秩为K 。
将其带入β = [E(X *'X )]-1 E(X *'y ),可得β = [E(X *'X )]-1 E(X *'y )= {E(X 'Z ) [E(Z 'Z )]-1 E(Z 'X )} -1{E(X 'Z ) [E(Z 'Z )]-1Z 'y} (1.15)β的TSLS 估计量为:{}{}-1112ˆ'(')(')'(')'SLS--=βX Z Z Z Z X X Z Z Z Z y (1.16) 1.一致性由2SLS 估计量可得:1-1121-111111-11111ˆ['(')(')]['(')'()]['(')(')]['(')'][(')(')(')][(')(')(')]SLS N N N N N N ------------=+ =+ =+βX Z Z Z Z X X Z Z Z Z X βu βX Z Z Z Z X X Z Z Z Z u βX Z Z Z Z X X Z Z Z Z u (1.17)由大数定律和Slustky 定理,可得:2ˆPlim SLS =ββ。
即2SLS 估计量具有一致性。
2.渐进正态性根据1Plim(')E(')i i N -==Z u Z u 0,并由中心极限定理,1/2'~(,)N Normal -Z u 0B 。
同方差假定下,22E(')E(')i i i i u σ==B Z Z Z Z ,2=var()i u σ。
根据Slutsky 定理,1111-11111/22ˆ)[(')(')(')][(')(')(')]SLSN N N N N N ---------=ββX Z Z Z Z X X Z Z Z Z u (1.18)定理:在假定1、22ˆ)SLS -ββ渐进服从正态分布,均值为0,方差矩阵为{}-121E(')E(')E(')σ-X Z Z Z Z X (1.19)其中,1E(')E(')E(')-X Z Z Z Z X 可以用样本进行估计,2σ的估计量公式为:2121ˆˆ()Ni i N K u σ-==-∑ 其中,2ˆˆi i i SLS u y =-x β,而不是第二阶段的残差项。