当前位置:文档之家› 第五章-含虚拟变量的回归模型

第五章-含虚拟变量的回归模型

Econometrics第五章虚拟变量回归模型(教材第六章)第五章虚拟变量回归模型第一节虚拟变量的性质和引入的意义第二节虚拟变量的引入第三节交互作用效应第四节含虚拟变量的回归模型学习要点虚拟变量的性质,虚拟变量的设定5.1 虚拟变量的性质和引入的意义虚拟变量的性质f定性变量性别(男,女)婚姻状况(已婚,未婚)受教育程度(高等教育,其他)收入水平(高收入,中低收入)肤色(白人,有色人种)政治状况(和平时期,战争时期)f引入虚拟变量(Dummy Variables)1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。

2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。

3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本量,从而提高了估计精度)。

5.1 虚拟变量的性质和引入的意义5.2 虚拟变量的引入虚变量引入的方式主要有两种f加法方式虚拟变量与其它解释变量在模型中是相加关系,称为虚拟变量的加法引入方式。

加法引入方式引起截距变动5.2 虚拟变量的引入f 虚拟变量的作用在于把定性变量“定量化”:通过赋值0和1,0表示变量不具备某种性质,1表示具备。

f 例,0代表男性,1代表女性;0代表未婚,1代表已婚;等等。

f 这类取值为0和1的变量称为虚拟变量(dummy variables ),通常用符号D 表示。

f 事实上,模型可以只包括虚拟变量(ANOVA 模型):其中,0,1,i i D D ==男性;女性。

12i i iY B B D u =++5.2 虚拟变量的引入虚拟变量的性质f 假定随机扰动项满足男性的期望:5.2 虚拟变量的引入虚拟变量的性质f 食品支出对性别虚拟变量(男=0,女=1)回归的结果:f 结果怎么解释?f 由于男性赋值为0,女性赋值为1,因此,截距项表示取值为0的一类(这里是男性)的均值。

f 通常把取值为0的一类称为基准类、参照类或比较类。

此时,女性平均食物支出等于截距项加上D i 的系数值。

f 哪类赋值为1,哪类赋值为0,并没有什么关系。

()()()()2ˆ3176.83503.17233.04 329.5713.63 1.53 0.1890i iY D se t r =−==−=5.2 虚拟变量的引入虚拟变量的性质f 既然有两种分类,为何不引入两个虚拟变量?如之间的完全共线性,将导致模型无法估计!5.2 虚拟变量的引入虚拟变量的性质f 很容易验证:D 2=1-D 3或D 3=1-D 2f 我们发现,如果定性变量有两类,只引入一个虚拟变量(D 2或D 3)就可以了。

f 一般的原则:如果模型有共同的截距项B 1,且定性变量有m 种分类,则需引入(m-1)个虚拟变量。

f 如果不符合该原则,则会陷入虚拟变量陷阱,即完全共线性或多重共线性。

f 上述ANOVA 模型在经济学中一般用得较少,更多的是,回归模型中既包括定量解释变量,也包括定性解释变量。

这种模型称为协方差分析模型(ANCOVA )。

5.3 交互作用效应考虑这样一个模型:其中表示衣着方面的年度开支表示收入该模型隐含的假定是,在两种教育水平之间性别的级差效应保持不变,在两种性别之间教育的级差效应保持不变。

12233i i i i iY a a D a D X u β=++++210D ⎧=⎨⎩女性男性310D ⎧=⎨⎩大学毕业不然的话这种假定显然是站不住脚的。

显然上过大学的男性与女性在衣着方面支出差距比没上过大学的肯定大或者说不一样。

这就是存在所谓的交互效应。

简单一点,上过大学和性别这两个因素对衣着支出的影响不是独立的,他们相互影响,也即交互效应。

5.3 交互作用效应5.3 交互作用效应模型修正为:=女性的级差效应=大学毕业的级差效应=女大学毕业生的级差效应交互作用虚拟变量的系数是否在统计上显著,可通过t检验加以验证。

错误地忽略一个显著的交互作用项将导致模型设定上的偏误。

12233423()i i i i i i i Y a a D a D a D D X u β=+++++2a 3a 4a5.4 含虚拟变量的回归模型包含一个定量变量、一个两分定性变量的回归f 把税收收入作为新的解释变量纳入模型:式中,Y——食品支出,X——税收收入,D——1(女性)和0(男性)。

f 回归结果如下,怎么解释?()()()()()()()()()2ˆ1506.244228.98680.0589188.0096 107.0582 0.00618.0115 2.1388 9.64170.000 0.0611 0.000 0.9284i i iY D X se t p R =−+==−==123i i i iY B B D B X u =+++5.4 含虚拟变量的回归模型包含一个定量变量、一个两分定性变量的回归f 女性平均食品消费支出:男性平均食品消费支出:f 进一步的问题:男女的食品边际消费倾向有差异吗?ˆ1277.25740.0589i i Y X =+ˆ1506.2440.0589i iY X =+5.4 含虚拟变量的回归模型包含一个定量变量、一个多分定性变量的回归f “一个多分定性变量”,如中国的东部,中部、西部。

f 又如,美国的学校分为三个地区:(1)南部;(2)东北和中北部;(3)西部。

f 考虑:美国大学研究生接受率是否存在地区差异?其中,D 2——1(东北和中北部),0(其他地区)D 3——1(西部),0(其他地区)f 根据引入虚拟变量的原则:定性变量“地区”有三个分类,所以引入两个虚拟变量。

这里南部是基准类。

f 根据模型,三个地区的平均接受率分别等于?12233i iAccept B B D B D u =+++5.4 含虚拟变量的回归模型包含一个定量变量、一个多分定性变量的回归f 东北和中北部:西部平均接受率:5.4 含虚拟变量的回归模型包含一个定量变量、一个多分定性变量的回归f 上述是ANAVO 模型,下面考虑ANCOVA 模型(引入一个定量解释变量,例如每个学校的年学费)。

f 结果怎么解释?f 同样的问题:不同地区学费的斜率系数相同吗?()()()()()()()()23279.033 5.67011.140.0011 15.53 1.91 2.79 7.55 0.000 0.061 0.007 0.000 0.546i i i Accept D D Tuition t p R =−−−=−−−==5.4 含虚拟变量的回归模型包含一个定量变量、一个多分定性变量的回归f平均接受率与学费(图)5.4 含虚拟变量的回归模型包含一个定量变量和多个定性变量的回归f 考虑解释变量包含多个定性变量的情形:其中,Y——小时工资;X——受教育年限;D 2——1(女性),0(男性);D 3——1(非白人和非西班牙裔人),0(其他)f 回归结果怎么解释?122334i i iY B B D B D B X u =++++ ()()()()2320.2610 2.3606 1.73270.8028 0.2357 5.4873 2.1803 9.90940.546;528i i i i Y D D X t R n =−−−+=−−−==5.4 含虚拟变量的回归模型包含一个定量变量和多个定性变量的回归f 问题:非白人女性比非白人男性工资低吗?低多少?模型之间的5.4 含虚拟变量的回归模型包含一个定量变量和多个定性变量的回归f 回归结果如下,怎么解释?f -2.3605表示女性的差别,-1.7327表示非白种人的差别。

f (-2.3605-1.7327+2.1289)=-1.9643表示非白种人女性的平均小时工资偏低1.9643美元。

——比较的基准是什么?f非白种人女性比非白种人男性低多少?非白人男性:-2.3605×0-1.7327×1+2.1289×0×1=-1.7327低:-1.9643-(-1.7327)=-0.2361()()()()()232320.2610 2.3606 1.7327 2.12890.8028 0.2357 5.4873 2.1803 1.7420 9.90940.2032;528i i i i i i Y D D D D X t R n =−−−++=−−−==5.4 含虚拟变量的回归模型比较两个回归f 回想食品支出一例:→男女的食品边际消费倾向(即收入5.4 含虚拟变量的回归模型比较两个回归f 模型可能出现的情况:1. 一致回归2. 平行回归(截距不同)3. 并发回归(斜率不同)4. 相异回归(截距、斜率均不同)240,0B B =≠240,0B B ≠≠240,0B B ==240,0B B ≠=1234+i i i i i i Y B B D B X B D X u =+++5.4 含虚拟变量的回归模型比较两个回归5.4 含虚拟变量的回归模型比较两个回归f回归结果:f怎么解释?5.4 含虚拟变量的回归模型虚拟变量在季节分析中的应用f 时间序列往往呈现季节模型,例如夏天对冰淇林的需求,假期对旅游的需求,夏天冬天对空调的需求……f 季节调整的虚拟变量法:怎么设置虚拟变量?1. 定性变量有几个?是什么?2. 该定性变量分几类?3. 因此需要几个虚拟变量?f 21,0,i D ⎧=⎨⎩夏季其它41,0,i D ⎧=⎨⎩冬季其它31,0,i D ⎧=⎨⎩秋季其它1223344+i i i i iY B B D B D B D u =+++模型:。

相关主题