当前位置：文档之家› 第十八章-离散选择模型和受限因变量模型

第十八章-离散选择模型和受限因变量模型

第18章离散选择模型和受限因变量模型18.1概述在经典计量经济学模型中，被解释变量通常被假定为连续变量，但在现实的经济决策中经常面临许多选择问题。

在这样的决策问题中，或者选择问题中，人们必须对可供选择的方案作出选择。

通常被解释变量是连续的变量，但此时的因变量只取有限多个离散的值。

例如：人们对交通工具的选择，是选择坐轻轨、地铁还是公共汽车；某大型企业是否合并另一企业；对某一方案的建议持强烈反对、反对、中立、支持和强烈支持5种态度，可以分别用0，1，2，3和4表示。

以这样的选择结果作为被解释变量建立的计量经济学模型，称为离散被解释变量数据计量经济学模型（models with discrete dependent variables），或称为离散选择模型（DCM，discrete choice model）。

如果被解释变量只能有两种选择，称为二元选择模型（binary choice model）；如果被解释变量有多种选择，称为多元选择模型（multiple choice model）。

20世纪70和80年代，离散选择模型普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。

在实际中，还会经常遇到因变量受到某种限制的情况，这种情况下，取得样本数据来自总体的一个子集，可能不能完全反映总体。

例如，小时工资、住房价格和名义利率都必须大于零。

这时需要建立的经济计量模型称为受限因变量模型（limited dependent variable model）。

这两类模型经常用于调查数据的分析中。

本章将讨论三类模型及其估计方法和软件操作。

一是定性（观测值为离散的或者表示排序）；二是截取或者截断问题；三是观测值为整数值的计数模型。

18.2二元因变量模型在这个模型中，被解释变量只取两个值，可以是代表某件事发生与否的虚拟变量，也可以是两个决策中选一个，称为二元因变量模型。

例如：对样本个体是否就业的研究，个体的年龄、教育背景、种族、婚姻状况以及其他可观测的特征，作为解释变量，目的是研究个体这些特征对个体就业概率的研究。

或者对某商品的购买与否，取决于两类因素：一类是该商品具有的属性，诸如用途、价格等；一类是决策个体所具有的属性，诸如职业、年龄、收入水平、健康状况等。

从大量的统计中，可以发现选择的结果与影响因素之间具有一定的因果关系。

揭示这一因果关系并用于预测研究，对于制定商品销售方案无疑是十分重要的，这就需要建立计量经济学模型来研究这些变量之间的关系。

18.2.1二元选择模型形式假设中二元因变量y 取0和1两个值，，对y 和x 间不能建一个简单的线性回归模型，因为模型的条件均值对残差设了一个不合理的约束条件。

而且简单回归模型中的y 的拟合值没有被限制在0和1之间。

为了处理二元因变量模型的特别要求，我们必须设定专门的模型。

假设观测值取1的概率为：P(1,)1()i i i y x F x ββ=∣=-- （18.2.1）其中F 是连续的、严格递增的函数，其取值在0和1之间。

本章讨论时采用最简单的线性函数形式i x β，而在Eviews 中也可以处理非线性的函数形式。

F 函数的类型决定了二元因变量模型的类别，即有：P(0,)()i i i y x F x ββ=∣=- （18.2.2）给定这样的设定后，可以用极大似然法对模型的参数进行估计。

对数似然函数如下：0()[log(1())(1)log(())]ni i i i i l y F x y F x βββ==--+--∑ （18.2.3）由于极大似然函数的条件就是非线性的，因此需要进行迭代运算才能得到参数的估计值。

首先对二元变量模型设定一个潜在解释变量，假设这有一个不可观测的潜在变量*i y 与i x 的线性关系如下：*i i i y x u β=+ （18.2.4）其中：i u 是随机干扰项，由*i y 是否超过临界值来决定因变量的观测值取值。

则i y 和*iy 关系有： **1000i i i y y y ⎧>=⎨≤⎩ （18.2.5）这里临界值设为0，但是只要x 包含常数项，临界值的选择就是不相关的。

然后：*(1,)(0)(0)1()i i i i i u i P y x P y P x u F x βββ+=∣=>=>=-- （18.2.6）其中：u F 是u 的累积分布函数。

根据F 分布函数类型，常见模型有Probit 模型（标准正态分布）、Logit 模型（逻辑分布）和Gompit 模型（极值分布）。

一般地，由于二元因变量模型仅仅是一件事发生与否，那么y 的两个数值便不重要了。

不过，Eviews 需要对y 的两个值进行编码。

这个约束条件产生很多优点。

第一，变量按这种方式进行编码暗示了y 的期望值简单就是y=1的概率：(,)1*P(1,)0*P(0,)P(1,)i i i i i i i i E y x y x y x y x ββββ∣==∣+=∣==∣ （18.2.7）这也为二元因变量模型提供了另一种解释，即条件均值的设定。

接下来我们可以将二元因变量模型写为如下的回归模型：(1())i i i y F x βε=--+ （18.2.8）其中：i ε是残差项，代表二元变量y 对条件均值的分离，然后有：(,)0i i E x εβ∣= （18.2.9）var(,)()(1())i i i i x F x F x βεββ∣=--- （18.2.10）根据残差分布函数不同，常见模型有Probit 模型（标准正态分布）、Logit 模型（逻辑分布）和Gompit 模型（极值分布）。

则有：Probit 模型：(1,)1()()i i i i P y x x βx ββ=∣=-Φ-=Φ，其中Φ是标准正态分布累积分布函数。

Logit 模型：(1,)1(/(1))/(1)i i i i x x x x i i P y x ee e e βββββ----=∣=-+=+，同样是基于逻辑分布的累积分布函数。

Gompit 模型：(1,)1(1exp())exp()i i x x i i P y x ee βββ--=∣=---=-，基于Type-I 极值分布的累积分布函数。

18.2.2二元选择模型的Eviews 估计1）模型的估计（1）模型估计估计二元选择模型，从主菜单中选择Object/New Object …，并从该菜单中选择Equation 选项。

从出现的Equation Specification 对话框中，选择Binary 估计方法。

在二元选择模型设定中包括两部分。

首先，在Equation Specification 区域内，键入二元因变量的名字，随后键入一系列回归项。

然后，在Binary estimation method 中选择Probit 、Logit 和Extreme value 三种中的一种估计方法，即三种误差项分布函数。

例如，使用probit 模型对重庆市政府农技推广供给影响因素的研究中，将农技推广服务的供需状况y 划分为“有贡献”和“没有贡献”两个层次，具体取值设置为，农技推广供给“没有贡献”或贡献“较小”取0，“有贡献”取1，政府农技推广工作人员的文化水平、所在地区、员工职位以及年龄等对农技推广供给的影响。

其中文化水平有4个层次，高中以下、高中、专科、本科以上，3个虚拟变量，即学历为高中，EDU1取值为1，同样专科EDU2和本科以上EDU3的取值；地区area 为主城区，取值为1，不是主城区取值0；政府工作人员的职务级别分3个层次，中高级管理者、基层管理者和一般工作人员，对该指标设2个虚拟变量，职务级别为中高级管理者，duty1取值为1，否则取0，职务级别为基层管理者，duty2取值为1，否则取0；年龄age 则直接使用年龄的数字。

先建一个工作文件夹，点击主菜单上File/New/workfiles …，在Workfile structure type 中选择Unstructured/Undated ，Data range 输入样本的相关信息，具体如下图：图18.2.1然后依次输入数据序列，图18.2.2再点击主菜单上Quick/Estimate Eqution，进行估计设置：图18.2.3设定好模型后，点击“确定”。

Eviews6.0的估计结果如下：图18.2.4参数估计结果的上半部分包括估计方法（ML 极大似然估计）和估计中所使用的样本的基本信息，也包括达到收敛要求的迭代次数，和计算系数协方差矩阵所使用方法的信息。

在下面显示的是系数的估计、渐近的标准误差、z 统计量和相应的概率值及相关统计量。

二元选择模型的解释变量的估计系数不能被解释成对解释变量的边际影响，只能从系数的符号来判断因变量取值的概率有多大。

则解释变量x 对条件概率的边际效应为：(,)()i i i j ijE y x f x x βββ∂∣=-∂ （18.2.11）其中()()/f x dF x dx =是相对于F 的密度函数。

注意用f 对所有回归项x 的值对系数jβ加权，i x 改变的直接效应通过系数j β的符号来反映，正的j β表示i x 增加能增加相应事件发生的概率；而负的值则表示i x 增加将减小相应事件发生的概率。

本例中age 的系数估计值为正，说明政府工作人员年龄越大，农业科技推广有贡献的概率越大，体现了年龄增加对农业科技推广的供给产生了正向的作用。

参数估计结果的下半部分包括常用的描述性统计量，其中有均值和因变量的标准偏离，回归的标准差和残差平方和。

标准差和残差平方和也用常用的方式计算的：))(1(),(ββi i i i i i x F y x y E y e ---=-= （18.2.12）另外，在回归结果中还提供了几种似然函数统计量：①Log likelihood 是对数似然函数的最大值)(βL 。

②Avg.log likelihood 是用观察的个数N 去除以对数似然函数)(βL ，即对数似然函数的平均值。

③Restr.log likelihood 是除了常数以外所有系数被限制为0时的极大似然函数)(βL 。

④LR 统计量检验除了常数以外所有系数都是0的假设，用-2[)(βL -)(βL ]计算的。

这类似于线性回归模型中的F 统计量，测试模型整体的显著性。

⑤Probability(LR stat)是LR 的检验统计量的P 值。

在零假设下，LR 的检验统计量近似服从自由度等于检验下的约束变量的个数的2χ分布。

⑥McFadden R-squared 是用1-)(βL /)(βL 计算的似然比率指标，这里)(βL 是有约束时的似然函数，它是同线性回归模型中的R 2是类似的，它总是介于0和1之间。

e商务文档

第十八章-离散选择模型和受限因变量模型

相关文档推荐：