当前位置:
文档之家› 第8讲_截断与样本选择模型2-Heckman及Roy
第8讲_截断与样本选择模型2-Heckman及Roy
• In this case, we have truncation from above • Log(Earnings) were modeled as a function of
– education – intelligence test scores – union membership – level of vocational training – disability status – age
• 第II类Tobit模型明确提出了选择方程和结果 方程,这两个方程是不一样的,并对它们 分别进行了估计
• 在第I类Tobit模型中,影响数据截取的变量 以及系数与影响数据水平结果的变量及系 数完全一样,都为x和β
• 而在第II类Tobit模型中,影响数据截取的变 量x1以及系数β1与影响数据水平结果的变量 x2及β2 是有区别的
• 在对方差-协方差矩阵进行估计时,我们 需要考虑到结果方程内在的异方差性,以 及λ本身为拟合值
• 在这里,我们不对Heckit方法中方差-协方 差矩阵进行推导,有些计量软件,如Stata 在给出Heckit估计结果时,对方差-协方差 矩阵的估计结果进行了调整
与第I类Tobit模型的比较
• 第I类Tobit模型以常数0为左截取点,虽然 它也采用了隐性变量的模型结构,但是在 该模型中,仅仅是y*自身的取值大小影响其 被观察到的数值大小
• 之所以将选择方程中的随机扰动项方差设定为1,是因 为在后面我们要采用Probit方法对该方程进行估计
– u2= δu1+η,可以推出:
u1 u2
~
N
0 0
,
1
21
12 2
y1与y2的概率分布
• 对于选择结果y1,它的概率分布容易推导: Pr( y1 = 0|x1 ) = Pr(u1 < −x1′β1 ) = 1 − Φ (x1′β1 )
估计结果。但在样本选择的情形中,u1与u2 通常是相关的
基本假设
• 记x=(x1,x2),表示模型中所有的解释变量, • 在双变量样本选择模型中的基本假设如下
– x和y1总可以观察到,但y2只有当y1=1时才能够 被观察到
– X1和x2是外生的解释变量,即 E(u1|x)= E(u2|x)=0
– u1∼N(0,1) ,u2∼Ν(0,σ2)
Use a variable to identify selection . generate wageseen = (wage < .) . heckman wage educ age, select(wageseen = married children educ age)
Specify robust variance . heckman wage educ age, select(married children educ age) vce(robust)
No constant in model . heckman wage educ age, noconstant select(married children educ age)
No constant in selection equation . heckman wage educ age, select(married children educ age, noconstant)
• 这样要求的理由在于,尽管Inverse Mills Ratio λ(x‘1β1)是x1的非线性函数,但它通常 可以很好地由一个线性函数来近似
– 如果x1=x2,就会造成λ与x2的高度相关,从而出 现多重共线性,参数估计结果的方差极高
• 特别是当参与概率的预测值没有很大的变化 时,多重共线性问题会变得更加严重
Parameter Estimates
Stata命令
• truncreg truncreg y x1 x2 … xk, ll(c) ul(c)
用于估计正态断尾模型,使用该命令时, 通常需要指定至少一个断尾点,在实际的 分析中,有时需要指定两个断尾点。上限 用ul()表示,下限用ll()表示
• heckman
• 后一个模型是前一个模型的一般化,所以 第II类Tobit模型有时又被称为一般化的 Tobit模型
例子: Hausman and Wise (1977)
• Estimated earnings equation for low-income households (i.e., those below the poverty level)
– 影响选择方程的解释变量至少有一个不影响结果 方程,而影响结果方程的解释变量一定都包含在 选择方程中
– 没有包含在结果方程中的解释变量称为“排除约 束”(exlusion restriction),本质上,这些变量为 工具变量
– 例如孩子的年龄和个数会影响到已婚女性是否进 入劳动市场,但是它们并不影响已婚女性的工资 状况
Obtain full ML estimates . heckman wage educ age, select(married children educ age)
Obtain Heckman's two-step consistent estimates . heckman wage educ age, select(married children educ age) twostep
(u1 ~ N (0,1))
Pr( y1 = 1|x1 ) = Φ (x′1β1) • 由于水平结果y2只有当y1=1时才能够被观察 到,所以当y2连续时,只有讨论它的密度函 数f(y2 |y1=1,x)才有意义
• 对于观察到的y2 ,其密度函数为
f
( y2
y1
1,
x)
x11
y1
x
2
x11
– 有计量经济学家通过大量的Monte Carlo模拟发现,没 有包含“排除约束”的双变量样本选择模型,在有限 样本的情形下,估计结果非常糟糕
– 如果能够保证x2⊂x1,那么当选择偏差存在时,我们就 能够保证得到一致的估计结果。
估计参数的方差-协方差矩阵
• 估计参数的方差-协方差矩阵的正确估计 值无法通过简单的OLS过程得到
• heckprobit
heckprobit p x1 x2 … xk, select(z1 z2 … zs) 用于估计存在样本选择时的Probit模型,在这个
命令中,不提供twostep的选项,因为两阶段 估计无法得到一致估计量。
• 模型设定 • 估计 • 例子讨论
Roy模型
简介
• 第II类Tobit模型即双变量选择模型中,被解 释变量可能会观察不到,对于y2=1的对象, 我们可以观察到y1,而对于y2=0的对象,我 们则看不到y1
y1
x2 2
部分ML估计
• 由于y2只有当y1=1时才能够被观察到,因此 我们不能够采用全条件的ML估计,而应当 采用部分ML估计法
– 也就是说,所建立的似然函数是以y1=1为条件 的,因此所使用的只是部分观察到y2的样本
– 前面推导的f(y2|y1=1,x)正是部分ML估计所需要 和所能运用的密度函数
Specify clustering on county . heckman $wage_eqn, select($seleqn) vce(cluster county)
Report first-step probit estimates . heckman wage educ age, select(married children educ age) first
heckman y x1 x2 … xk, select(z1 z2 … zs) twostep
用于估计第二类Tobit模型,估计的方法默认为 ML估计,如果加上选项twostep,则采用Heckit 方法; 选项select则设定参与方程中的被解释变量和解 释变量,被解释变量应该为0-1变量,如果缺省 的话,则y的观测值缺失被认为没有参与,反之 视为参与。
• 在第二阶段的估计中,用观察到的y2对x2和 λhat进行OLS估计,从而得到β2和σ12的估 计值
检验
• 对H1: σ12 =0的检验,可以检验参与方程与 结果方程中的随机扰动项是否相关,从而 判断对样本选择偏差的校正是否必要
• σ12为第二阶段回归方程中Inverse Mills Ratio的系数,由于该回归方程中的随机扰 动项具有异方差性,因此对该系数的检验 应该通过Wald检验完成
– 对所有观察到y1的样本的对数似然函数 f(y2|y1=1,x)进行加总,并通过最大化,可以估 计出β1,β2,σ和δ=σ12
Heckit方法
• 由于我们面对的是断尾数据,因此考虑 E(y2|y1=1,x)是有意义的
•上式成为Heckman两阶段程序即Heckit方法 中的估计方程
• 从中我们可以看到,如果σ12=0,那么即 使用有选择的样本来进行OLS估计,仍然 可以得到x2对于y2的一致影响
的意愿
双变量样本选择模型
• 选择方程(Selection Equation),又称为参 与方程(Participation Equation)
1 if y1 0 if
y1* 0 y1* 0
• 结果方程(Outcome Equation),又称为水平
方程(Level Equation)
y2
y2*
模型设定
• 令y2*为我们所感兴趣的被解释变量,由于 样本选择的原因,它不是总能够被观察到
• y1*为一个隐性变量,它的取值大小决定y2* 是否能被观察到
• 举例而言
– y2*为工资, y1*为工作意愿,当她(他)工作 时,她(他)的工资数据就可以得到
– y2*为住院天数, y1*决定住院倾向 – y2*为某门选修课的成绩, y1*为选修该门课程