当前位置:文档之家› 二元选择模型

二元选择模型

ˆ 0.586 0.0034nwifeinc 0.038educ 0.039exper 0.0006exper 2 inlf 0.016age 0.262kidslt6 0.013kidsage 6 n 753 R 2 0.264
线性概率模型的缺陷
1、干扰项的非正态性
2.3 LOGIT模型的估计
• 采用极大似然估计法。为什么采用极大 似然估计法?
• Stata命令:
logit depvar [indepvars] [if] [in] [weight] [, options]
• 极大似然估计的出发点就是寻找样本观 的估计值 测值最有可能发生条件下的 。从样本看,如果第一种选择发生了n次 ,第二种选择发生了N-n次。设采取第 一种选择的概率是pi。采取第二种选择 的概率是(1- pi)。重新将样本数据排 列,使前n个观测值为第一种选择,后 N-n个观测值为第二种选择,则似然函 数是 L(1 , 2 ) P(Y1 , Y2 ,...YN ) P(Y1 ) P(Y2 )...P(YN )
Probit模型
为了解释二分因变量,除了逻辑斯蒂函数 以外,还可以采用正态分布函数。这就 是Probit模型,也称为概率单位模型。
P( y 1| x) G(1 2 x1 ... k xk ) G(1 x )
若G采取如下形式 G( z) ( z) (v)dv 这样可得到Probit model。Probit模型的 估计:极大似然估计法 • STATA命令: probit depvar [indepvars]
模型回归系数的解释
1、由于Probit 与Logit 使用的分布函数不同,其参数估计值并不 直接可比。须计算边际效应,然后进行比较。 2、但对于非线性模型,边际效应不是常数,随着解释变量而变。 常用的边际效应概念: • (1) 平均边际效应(average marginal effect),即分别计算在每 个样本观测值上的边际效应,然后进行简单算术平均。 • (2) 样本均值处的边际效应 (marginal effect at mean),即在 • X=均值处的边际效应。 • (3) 在某代表值处的边际效应 (marginal effect at a representative value),即给定x*,在x=x*处的边际效应。 3、在非线性模型中,样本均值处的个体行为并不等于样本中个体 的平均行为(average behavior of individuals differs from behavior of the average individual)。 4、对于政策分析而言,平均边际效应(Stata 的默认方法),或在某 • 代表值处的边际效应通常更有意义。
线性概率模型(linear probability model,LPM)、对数单位模型( logit model)、概率单位模型 (probit model)、托比模型(tobit model)、泊松模型(possion model) 、截取回归模型(censored regression model)、断尾回归模型 (truncated regression model)
对数单位模型的特点
1、P保证落在0-1之间。 2、虽然L对X是线性,但P对X并不是线性。 3、斜率系数解释的是X的变化导致的L的变化, 而不是概率的变化。 4、但我们关心的是X的变化导致的概率的变化 ,如何导出?在估计出系数后,利用 1 1 Pi 推导出。 zi ( 1 2 x ) 1 e 1 e 5、如何估计
2.1 线性概率模型
• 因变量是一个取值为0,1的二值结果的分 类变量 考虑模型:
其中:y表示已婚妇女是否参与劳动力市场 , x为一系列自变量如收入的其他来源、 经验、经验平方、年龄、小于6岁的子女 数、家庭中6-18岁的子女数。 (Example From Wooldridge)
y 0 1 x1 ... k xk u
U U X i ( ) ( )
1 i 0 i 1 0 1 i 0 i
将上式记作Yi* X i i* P(Yi 1) P(Yi* 0) P( i* X i )
无论对于标准正态分布还是逻辑分布,上式 都可以写成 P(Y 1) P(Y 0) P( X )
Probit和logistic分布
• Probit曲线和logit曲线很相似。两条曲 线都是在pi= 0.5处有拐点,但logit曲线 在两个尾部要比Probit曲线厚。两种分 布的概率值分别见表1。
2.2 Logit模型
在线性概率模型LPM中,假定响应概率对 一系列参数 j 是线性的。
对于异方差问题,即使通过广义最小二乘 法得到异方差条件下的有效估计量,仍 有下面问题: 1、概率拟合值仍可能落在(0,1)之外。 2、因为随机扰动项的分布不是正态的, 是两点分布,所以该估计量不是有效估 计量,是渐近有效估计量。
线性概率模型的改进: 所估计的概率能落在[0,1]之间。同时对于 所有的xi,当xi增加时,希望yi也单调增 加或单调减少。显然累积概率分布函数 能满足这样的要求,常用的包括logistic 分布、正态分布、weibull分布、极值分 布,但probit和logit分布最常用。 Weibull分布不假设对称性, P(Y=1|X)=exp(-exp(xb))(cdf) Log-log分布: P(Y=1|X)=1-exp(exp(-xb))
z
对数单位模型的特点
该模型是McFadden于1973年首次提出,采用的 是logistic概率分布函数。从logit模型可以看 出: logit模型的一个重要优点是把在 [0,1] 区间上预测概率的问题转化为在实数轴上预测 一个事件发生的机会比(也叫发生比率odds)问 题。 logit累积概率分布函数的斜率在pi= 0.5时最大 ,在累积分布两个尾端的斜率逐渐减小。说明 相对于pi= 0.5附近的解释变量xi的变化对概率 的变化影响较大,而相对于pi接近0和1附近的 xi值的变化对概率的变化影响较小。
限值因变量有哪些情形 (limited dependent variable regression model, LDV)
二元选择模型(Binary outcome model)
一、线性概率模型 二、Logit model 三、probit model
二元选择模型下的参数估计、解释、系数 解释等。
Logit模型也称为对数单位模型,表示为:
1 1 Pi yi ( 1 2 x ) 1 e 1 e
1 Pi
1 1 e( 1 2 x )
link function
P(y 1| x) G( 0 x1 ) G(z) exp(z) G(z) log it mod el 1 exp(z) G (z) (z) (v) dv probitmodel
二、限值因变量模型
限值因变量有哪些情形 (limited dependent variable regression model, LDV) • 当因变量为定性变量或不连续变量 或是受约束的变量时,统称为限值 因变量回归模型。
• 不同的限值因变量模型中,因变量的 情形不同,所使用的估计方法不同, 如非线性最小二乘法,但使用最大似 然估计法较多。
模型回归系数解释
1.以发生比率比的方式解释logit参数估计值
(适用于虚拟变量)。
ˆi p 假设log( )=-1.92+0.012x+0.67female,1为女性. ˆi 1 p
含义为:在控制了收入的情况下,女性参与投票的 发生几率几乎是男性的2倍。 对于连续变量,回归系数的指数表明该自变量每 上升一个单位所带来的发生比率的倍数变化, 即在性别相同的情况下,收入每增加1000元 ,投票的发生比率将是原来的1.01倍( exp(0.012))。
在线性概率模型中,
P( y 1) E( y | x) 0 1 x1 ... k xk 参数 j 度量的是在保持其他因素不变的
情况下,因自变量 x j 的变化导致成功 概率的变化。用OLS来估计。 何为“成功”的定义?Y=1
example
• Wooldridge(Mroz,1987)
pm / (1 p m ) p f / (1 p f )
2、相对风险(relative risk) 指某一暴露期内(exposure interval)的 相对发生概率。风险是指所关注事件在 某一给定时期内的发生概率。 example
设有两个规模各为25人的试验组,试验组 服用某种药物,控制组服用安慰剂。若 试验组中有2人感染了疾病,控制组中有 3人感染了疾病。则试验组的患病风险为 2/25=0.08,控制组为3/25=0.12,则 试验组相对于控制组的相对患病风险为 0.08/0.12=0.67.说明试验组的患病风险 大约为控制组的三分之二。 当事件发生的概率很小时,发生比率比常 被用来近似地表示相对风险。
z
[if] [in] [weight] [, probit_options]
2.4 潜变量模型导出的 logit和probit模型
• Logit and probit model 都可以由潜变 量模型推导出来。
• 以公共交通工具和私人交通工具的选择 为例。如果某一个体选择公共交通工具 或私人交通工具的效用分别表示为Ui1和Ui0 , U 1 X 1 1 ,U 0 X 0 0 i i i i i i
* i i * i i
1 P (i* -Xi )=1-F(-Xi )=F(Xi )
似然函数可写为:
P(Y1 , Y2 ..., Yn ) F(X i ) (1 F(X i ))
Yi 1 Yi 0
L ( F ( X i ))Yi (1 F ( X i ))1Yi
相关主题