当前位置:文档之家› 第七章 虚拟变量和随机解释变量 (2)

第七章 虚拟变量和随机解释变量 (2)

第七章 虚拟变量和随机解释变量本章将讨论两种不同的模型:虚拟变量模型和随机解释变量模型,以及模型设定的其它问题。

第一节 虚拟变量模型在我们以前考虑的模型中,解释变量都是定量变量(如成本、价格、收入、产出等),但在经济研究中,因变量经常受到一些定性变量的影响(如性别、种族、季节、不同历史时期等),我们把这类定性变量称为虚拟变量。

习惯上用D表示虚拟变量,虚拟变量的取值通常为0和1。

0表示变量具备某种属性,1表示变量不具备某种属性。

一、包含一个虚拟变量的模型如果我们要研究的问题中解释变量只分为两类。

则需引入一个模拟变量。

例9.1建立模型研究中国妇女在工作中是否受到歧视。

令Y=年薪,X=工作年限⎩⎨⎧=,女性,男性101D 可以建立如下模型:i i i i u D B X B B Y +++=210 )1.9( 与一般的回归模型一样,假定0)(=i u E 男性就业者的平均年薪:i i i i X B B D X Y E 10)0,(+== )2.9(女性就业者的平均年薪:210)1,(B X B B D X Y E i i i i ++== )3.9(如果B 2=0则说明不存在性别歧视,如果02<B ,则说明存在性别歧视。

图9.1表明男女就业者的平均年薪对工龄的函数具有相同斜率B 1,即随着工龄的增长男女工资的增长幅度相同;截距不同,说明男女的初始年薪不同。

我们称这种虚拟变量只影响截距不影响斜率的模型为加法模型。

图9.1不同性别就业者的收入(加法模型,B 2<0)如果随着工龄增加,男性与女性的年薪差距也发生变化,则模型(9.1)就变为i i i i i u X D B X B B Y +++=210 )4.9(图9.2描绘了男性年薪增加较快的情况。

我们称虚拟变量只影响斜率而不影响截距的模型为乘法模型如(9.4)如果男性与女性的初始年薪和年薪增加速度都有差异,我们可以将加法模型和乘法模型结合起来,得到如下模型i i i i i i u D B X D B X B B Y ++++=3210 )5.9(模型(9.5)可以用来表示截距和斜率都发生变化的模型。

其图形如图9.3所示。

我们还可以用加法模型与乘法模型相结合的方式建立模型来拟合经济发展出现转折的情况。

例如,进口商品消费支出Y主要取决于国民生产总值X(作为收入的替代变量)的多少。

我们改革开放前后,由于国家政策的变化,及改革开放后外资的大量引入等因素的影响,1978年前后,Y 对X 的回归关系明显不同。

以t *=1978年为转折点,1978年的国民生产总值X *t 为临界值。

设虚拟变量⎪⎩⎪⎨⎧<≥=**01tt t t D t 进口商品支出回归方程为t t t t t t u D X X B X B B Y +-++=)(*210 )6.9(用OLS 法估计得到t t t t t D X X B X B B Y)(ˆˆˆˆ*210-++= )7.9( 当年1978*=<t t ,0=t Dt t X B B Y10ˆˆˆ+= )8.9( 当t ≥1978*=t ,1=t Dt t t X B B X B B Y)ˆˆ()ˆ(ˆ21*20++-= )9.9( 根据我国经济发展的实际情况;一般应该0ˆ2>B 。

比较(9.8)与(9.9)式中的斜率,121ˆˆˆB B B >+,说明改革开放后,随着收入的增长,我国进口商品支出增长速度较改革开放前快。

当t=t *时,X t =X *t ,所以,由(9.8)和(9.9)式计算得到的Y *t 是一样的。

两条不同时期的直线可在转折点连起成为一条折线。

如图9.4.§9.1.2 包含多个虚拟变量的模型 现在我们要研究本科生,研究生和MBA 毕业生的初职月薪有何差异。

这里有三类人员,需引入两个虚拟变量。

数据见表9.1 Y =初职月薪X t⎩⎨⎧=其他研究生011D ⎩⎨⎧=其他研究生011D表9.1研究本科生,研究生和MBA 毕业生的初职月薪 单位:人民币元根据表9.1的数据得到OLS 回归结果如下:212497719501D D Y ++= )10.9(t )45.4( )52.4( )59.15(75.128,6.1.,898.0,905.022====F W D R R根据(9.1)可以看出,截距项为本科生的平均初职月薪;D 1的系数是研究生与本科生平均初值职月薪的差额;D 2的系数是MBA 毕业生与本科生平均初职月薪的差额。

所有回归数的符号与预期的一致。

模型(9.10)表明研究生的初职月薪比本科生高143.5%。

MBA 毕业生的初值月薪比本科生高494.8%;MBA 毕业生的初职月薪比研究生高144.2%。

从这三个层次毕业生的初职月薪可以看出他们的竞争能力。

图9.5给出了模型(9.10)图9.5本科生、研究生、毕业生的初职月薪从前面讨论的例子中,我们可以发现虚拟变量实质上是“数据分类器”,它根据样本的属性(性别、种族、季节变化、经济结构的变化等)将样本分为各个不同的子群体并对每个子群体进行回归分析。

各个子群体的因变量对解释变量(定性解释变量)的不同反应表现为各子群体截距或斜率系数存在差别。

虽然虚拟变量技术非常有用,但在使用时仍需谨慎。

第一,如果回归模型包含了常数项,那么虚拟变量的个数必须比所研究问题中数据属性少1;第二虚拟变量的系数必须与基准类(所有虚拟变量都取零的一类)相关;最后,若模型中包含多个定性变量,而且每个定性变量有多种分类,则引入模型的虚拟变量将消耗大量的自由度。

因此,应当权衡进入模型的虚拟变量个数以免超过样本观察值的个数。

§9.2 随机解释变量模型回忆回归模型的古典假设这一0)(,=i i u X Cov ,即解释变量X 与随机项u 不相关。

这个假定实际上要求:或X 是确定性变量,或者X 是随机变量,但与误差项u 不相关。

显然这种假定不符合实际。

实际上解释变量的取值往往不确定,是随机的。

尤其是滞后因变量作解释变量时更不能把他当作非随机变量处理。

我们把解释变量是随机变量的模型称为随机解释变量模型。

对于随机解释变量模型,如果满足0)(,=i i u X Cov和其它古典假设。

则当X 与u 独立时,最小二乘估计量是无偏的;当X 与u 不独立时,最小二乘估计量具有一致性。

如果0)(,≠i i u X Cov ,则OLS 估计量是非一致估计量。

如何解决解释变量与随机误差项相关时模型的参数估计呢?工具变量法是一种简单的方法。

工具变量法的基本思想是当解释变量与随机项高度相关时,设法找到另外一个随机变量Z ,使得Z 与X 高度相关而与u 不相关,称Z 为工具变量,用Z 替代X 使0)(,=i i u Z Cov ,求得模型的参数估计量1。

但在实际应用中,如何选择工具变量是一个比较困难的问题。

第三节 模型的设定在前几章我们考虑了单方程回归模型,例如交通通讯支出函数,进口需求函数。

在考虑这些模型时,我们隐含地假定了所选择的模型“是对现实的真实反映”,即它正确地反映了所要研究的现象。

用专业语言说,就是我们假定所选模型中不存在设定偏差或者误差。

设定误差的产生是由于我们在不经意中估计了“不正确的”模型。

但在实践中寻找真实正确的模型就好像寻找圣杯一样,永远办不到。

我们只是希望找到一个能够合理反映现实的模型,即一个好的模型。

一、 “好的”模型具有的特性著名经济计量学家哈维2列出了可以判定模型好坏的标准。

1. 节省性。

一个模型永远无法完全把握现实,在建模过程中一定程度的抽象或简化是不可1对随机解释变量模型估计量的性质的证明和工具变量法的介绍参见《经济计量学》,张宝法编著,经济科学出版社,2000年1月,pp166-174。

避免的。

节俭原则表明模型应尽可能地简单,即简单优于复杂。

2. 可识别性。

即对给定的一组数据,每个参数只有一个估计值。

3. 拟合优度。

回归分析的基本思想是用模型中所包括的变量来尽可能地解被解释变量的变化。

比如我们可以用校正的样本决定系数2R 来度量拟合优度。

2R 越高,则认为模型就越好。

4. 理论一致性。

无论拟合度多高,一旦模型中的一个或者多个数的符号有误,该模型就不是一个好的模型。

因而,在某种商品的需求函数中,如果价格的函数为正,那么回归结果就值得怀疑。

即使模型的R 2值很高,比如0.98,我们也不能接受这个模型。

所以,在构建模型时,我们必须有一些理论基础来支撑这一模型,“没有理论的测量”经常能导致非常令人失望的结果。

5. 预测能力。

正如诺贝尔奖得主米尔顿.弗里德曼所指出的那样,“对假设(模型)的真实性唯一有效的检验就是将预测与经验值相比较”3。

因而,在货币主义模型和凯恩思模型两者之间选择时,根据这一标准,我们就应该选择理论预测能够被实际经验所验证的模型。

虽然建立一个“好的”模型没有一个统一的方法,但是我们建议读者在建立经济计量模型时应牢记这些标准。

二、设定误差的类型正如前面指出的那样。

模型应该尽可能简单,它应该包括理论上所建议的关键变量而将一些次要影响因素包括在误差项u 中。

下面我们讨论几种导致模型失效的设定误差。

1.遗漏相关变量:“过低拟合”模型由于种种原因,研究者遗漏了一个或多个本应该包括在模型中的解释变量,这样会对常用的变通最小二乘法估计结果有什么影响呢?在第七章,我们曾给出1985年到1998年期间我中国进口商品支出函数,见式(6.5),现在假定“真实”的进口商品支出函数如下:t t u X B X B B Y +++=22110 )1.8(式中的Y 为进口总额,X 1为收入,X 2 为时间趋势变量,取值从1,2,… 到14(为了使分析具有一般性,我们用Y, X 1, X 2 作为变量)。

式8.1表明:除了收以外,还有一个变量X 2也影响进口商品支出。

它可能是人口,偏好,技术,国家政策导向等因素,我们用一个包罗万象的变量--时间或趋势变量表示这些影响因素。

如果,我们在这里不估计回归方程8.1而是估计下面的方程:t t t X A A Y ν++=10 )2.8(式(8.1)与(8.2)类似,只是去掉了“相关“变量X 2 。

ν与u 都是随机误差项。

如果(8.1)是正确的模型,那么(8.2)就犯了从模型中排除重要变量的设定误差。

我们将这种设定误差称作遗漏变量偏差。

遗漏变量可能产生如下后果:(1)如果遗漏变量X 2 与模型中变量X 1 相关,则0ˆA 和 1ˆA 是有偏的,即其均值与真实值不一致 。

即0)ˆ(B A E ≠, 11)ˆ(B A E ≠3Milton, “The Methodology of Positive Economics” in Essays in Positive economics, University of Chicago(2)0ˆA 和 1ˆA 不是0B 和1B 的一致估计量。

相关主题