当前位置:文档之家› 离散选择模型

离散选择模型


Yi 0 1GPAi 2 INCOMEi ui
其中:
1 Yi 0
第i个学生拿到学士学位后三年内去读研 该生三年内未去读研
GPA=第i个学生本科平均成绩 INCOME=第i个学生家庭年收入(单位:千美元)
设回归结果如下(所有系数值均在10%水平统计上显著):
ˆ Yi 0.7 0.4GPAi 0.002 INCOMEi
yi 0 yi 1
函数可以简化为:
L (1 F ( X ))1 yi F ( X ) yi
yi 1
对方程左右取对数我们便得到:
ln L [ yi ln F ( X ) (1 yi ) ln(1 F ( X ))]
i 1
n
似然函数为
fi ln L n yi fi [ (1 yi ) ]xi 0 Fi 1 Fi i 1
Pr ob(Y 1 X ) X F ( X ) f ( X ) X
因此我们在遇到二元响应模型时,估计出参数我们不能盲目的 将其解释为:解释变量变动一个单位,相对应的因变量变化参 数个单位。
为了解决偏效应的问题我们引入调整因子的概念。 在上式中的 f ( X ) 我们 便称为比例因子或调整因子,它与全部 的解释变量有关,为了方便起见,我们要找一个适用于模型所有 斜率的调整因子。有两种方法可以解决: (1)用解释变量的观测值计算偏效应的表达式,调整因子为:
四、二元选择模型的估计
1.除了LPM模型以外,二元选择模型的估计都是以极大似然法为基础 的 。由前面的讨论我们知道:
P(Y 1 X ) F ( X )
由此我们可以得到模型的似然函数为:
P(Y1 y1 ,Yn yn X ) (1 F ( X )) F ( X )
带( yi i )xi 0 i 1
然后我们运用迭代法来估计系数

,所得MLE为一致、渐近正态和渐近有效。
2.偏效应问题
在二元响应模型的大多数应用中,我们首要的目标是解释X对响 应概率P的影响。在效应模型中X对潜变量的偏效应是 ,而对 响应概率P的偏效应是 f ( X )
三、Probit和Logit模型
1.Logit和Probit模型的设定 基于上述LPM的缺点,在现实应用中,一般不能直接将其作为实际 研究的二元选择模型。我们可以使用二元响应模型可以克服这些缺 点。将LPM模型变换: 令第i个个体在二元选择时选“是”(记“是”=1)的效用为U i1 则:
U i1 X i 1 1
3.线性概率模型存在的问题
(1)因变量的期望值与Xβ的取值范围不同 (2)异方差问题 (3)随机扰动项不再是正态分布,而是服从二项分布。 (4)LPM模型假定自变量和Y=1的概率之间存在线性关系,而此 关系往往不是线性的。
(5) 2 或 R 2 调整的不适合用来测度拟合优度。 R 通常用“模型正确预测的观测值的百分比”来代替。
模型检验
模型检验
2.整个方程的显著性检验 采用LR(最大似然比)统计量和LM(拉格 朗日乘子)统计量,通常值越大则越拒绝原假 设(H0:方程不显著)
【注意】 第一,二元选择模型输入的是y的值,但输出的是y*的值。
第二,二元选择模型中的系数不能被解释成对因变量的边际 影 响,只能从符号上判断,如果为正,表明解释变量越大,因变 量取1的概率越大,反之,如果系数为负,表明相应的概率将越小。
ˆ ˆ ˆ ˆ g ( x ) g ( 0 1 X 1 k X k )
(2)计算每个观测值的偏效应,然后取平均:
1 n ˆ ˆ g ( x ) g ( X i ) n i 1
模型检验
1.拟合优度的测度 如同线性概率模型一样,Probit模型和Logit模 型也可以计算正确预测的百分比这一指标作为拟合 优度的测度。但通常计算软件采用的拟合优度的测 度是用各种pseudo-R2 。 其中最常用的是McFadden(1974)提出的 McFadden-R2。
于是我们选择F不同的形式得到不同的经验模型 注:在这里我们以Logit模型为例来说明二元选择模型的估计 对于Logit模型我 们有: 分布函数 F ( X )
exp( X ) exp( x) ( x) ,密度函数 f ( x) ( x)(1 ( x)) 2 1 exp( X ) (1 exp( x))
Company
LOGO
离散选择模型
主讲人:
曹庆明
主要内容
1 3 2 离散选择模型的定义 线性概率模型
3
4 5
Probit和Logit模型
二元选择模型的估计
假设检验
一、离散选择模型
1.离散选择模型的定义
简单的说,以定性变量为被解释变量的计量模型。 因变量取值为0、1、2…….。 ①、在大多数的情况下,这些数据是有无意义的,只 是某些变量的替代,定性的结果:比如,性别、年龄、 劳动力是否参与、对立法的态度。 ②、少数情况下,这些数值也是有意义的:比如,计 数模型中的数据:专利数….
2.模型估计
一般我们对于模型的估计,我们常用下面的框架:
Pr ob(事件j的发生) Prob(Y j) F (有关影响参数)
定性选择研究集中于对事件发生的概率模型进行适 当的设定、估计和使用,在大多数情形中,“事件”就 是一个人在一组选项中的选择。
二、线性概率模型
1.二元选择模型
在DCM中,我们只研究:解释变量存在两种选择的模型称为二 元选择模型。(binary choice model) 其中最简单的二元选择模型是线性概率模型。
2.线性概率模型(Linear Probability Models)
LPM是最简单的二元选择模型,它的解释变量的变动与因变 量值为1的概率线性相关。其一般表达形式如下:
Y X u
(Y的观测值为0或1)
对于某个观测值有 Yi X i ui 例子如下
(其中E(u)=0)
【例1】:什么样的本科毕业生会读研? 下面用一个关于是否读研究生的例子来说明如何理解线性概率 模型。假设模型为:
假设学生甲的平均分为3.5,家庭年收入为5万美元,Y的拟合
值为
ˆ Yi 0.7 0.4 3.5 0.002 50 0.8
第一:如何解释0.8?
这里因变量只能取两个值:0或1。可是该学生的的拟合值或 预测值为0.8。我们将其解释为该生决定读研的概率的估计值。因 此,该生决定读研的可能性或概率的估计值为0.8。需要注意的是, 这种概率不是我们能观测到的数字,能观测的是读研还是不读研 的决定。
0
令选“否”(记“否”=0)的效用为 U i 则:
U i0 X i 0 0
两式相减得:
U i1 U i0 X i ( 1 0 ) ( 1 0 )
其中 U i1 U i0 ,观测值应为1; i1 U i0 ,观测值应为0 U
上式可以转换为:
Y * X i ui*
x

1 e 2

z2 2
dz P( z x)
exp( x) F ( x) ( x) 1 exp( x)
2. Probit模型与Logit模型
做了上述变换后我们估计模型就方便了很多
(1)Probit模型
在最终的效用模型y =Xβ+μ中,假定u的分布为标准正态 分布,则该模型称为Probit模型。
【例题2】市长竞选,谁会投您的票?
数据如下
面板数据模型的设定与检验
根据以上数据我们得到如下结果:
根据上述回归结果,我们可以得出如下结论:年老一些、 富裕一些的选民更喜欢投票给候选人甲。
“模型正确预测的观测值的百分比”的计算
列表给出CAND1的拟合值,每个大于等于0.5的拟合值计入 CAND1为1的预测,而小于0.5的拟合值则计入CAND1为0的预 测。汇总统计30个观测值中,27个(或90%)预测正确。选甲的 14人中,12人(或85.7%)预测正确。选乙的16人中,15人(或 2 93.8%)预测正确。而R 是0.58,表明模型解释了因变量的58% 的变动,这远低于90%的正确预测比例。
对比原始模型我们有:
p( yi 1) p( yi* 0) p(ui* X i )
很明显,我们要得到事件发生的概率就必须知道随即扰动项 的概率分布,通常假定u服从下列两种分布,于是我们便得 到了Probit和Logit模型: 标准正态分布 F ( x) ( x) Logistic分布
p( yi 1) p( yi* 0) p(ui* X i ) 1 F ( X ) F ( X )
所以有:
P(Y 1 X ) F ( X )
exp( X ) 1 exp( X )
其中逻辑分布的密度函数为:
f ( x) exp( x) exp( x) ( x)(1 ( x)) 2 2 (1 exp( x)) (1 exp( x))
Probit模型的另一种表述为:
p( yi 1) p( yi* 0) p(ui* X i ) 1 F ( X ) F ( X )
所以有
P (Y 1 X ) F ( X )
X

1 e 2

z2 2
dz
(2) Logit模型 在最终的效用模型Y=Xβ+μ中,假定u的分布为逻辑分布,则该模 型称为Logit模型。 Logit模型的另一种表述为:
模型检验
类似R2
类似F检验
第二,如何解释斜率系数?
在LPM中,斜率系数表示其他解释变量不变的情况下,该解 释变量的单位变动引起的因变量等于1的概率的变动。CPA的系 数估计值0.4意味着家庭收入不变的情况下,一个学生的增加一 个点(如从3.0到4.0),该生决定去读研的概率的估计值增加0.4。 INCOME的系数估计值0.002表明,一个学生的成绩不变,而家 庭收入增加1000美元(单位为千美元),该生决定去读研的概率 的估计值增加0.002。所以,解释变量的变动与因变量值为1的概 率线性相关,因而称该类模型为线性概率模型(LPM)。
相关主题