当前位置:
文档之家› 第八章虚拟变量1577775632
第八章虚拟变量1577775632
第八章 虚拟变量
1
第一节 虚拟变量
回顾:前面各章讨论的变量都是可以直接用数字计 量的,即可以获得其实际观测值(如收入、支出、 产量物价水平等等)。这些变量称作数量变量。
然而,影响被解释变量的不仅有量的因素,还有质 的因素(如性别、民族、职业、季节、政策等等)
2
一、虚拟变量的概念
虚拟变量是用以反映质的属性的一个人工变量,取 值为 0 或 1,通常记为 D(Dummy Variable),又 可称之为属性变量、双值变量、类型变量、定性变 量、或二元型变量。
16
Yi
α0+α1 α0 Xi
17ห้องสมุดไป่ตู้
对模型 Yi=α0+α1Di+βXi+ ui 使用OLS法,可得:
yˆi ˆ0 ˆ1Di ˆi xi
对α1 进行 t 检验,若α1≠ 0 ,则说明城市居民与农 村居民的消费水平有明显差异。
18
假如还要考虑男女消费水平的差异,消费函数为:
Yi =α0+α1D1i+α2D2i+βXi+ui Yi 为消费水平,Xi 为家庭收入,D1i和D2i为虚拟变量。
第一组:20~35岁的居民 第二组:35~60岁的居民 用“1”表示第一年龄组;“0”表示第二年龄组,
就可以估计年龄对储蓄的影响。
5
二、虚拟变量的设置规则
1.两个属性的表示法 如性别有两个属性:用 Di 表示
1 Di 0
(男) (女)
即:两个属性引入一个变量即可!
6
2.多个属性的表示法
1 (城市) D1 0 (农村)
1 (男) D2 0 (女)
D1
城市男性
1
城市女性
1
农村男性
0
农村女性
0
D2 1 0 1 0
9
一般地,若有m个因素,而每个因素都只有两个 不同的属性类型,则引入m个虚拟变量。
思考:现有三个定性因素,有两个因素各有4个 不同的属性,一个因素有2个不同的属性,应设 多少个虚拟变量? (应设3+3+1=7个虚拟变量)
注意:虚拟变量D只能取0或1两个值,即属性之间 不能运算!
对基础类型或否定类型设 D=0 对比较类型或肯定类型设 D=1
3
说明
虚拟变量主要是用来代表质的因素,但有些情况下 也可以用来代表数量因素。
例如:在建立储蓄函数时,“年龄”是一个重要的 解释变量。虽然“年龄”是一个数量因素,但为了 方便也可以用虚拟变量表示。例如:可以把居民分 为两个年龄组:
乡居民消费水平的差异,消费函数可设为: Yi=α0+α1Di+βXi+ ui
Yi 为消费水平,Xi 为居民收入,Di为虚拟变量。
1 (城市) Di 0 (农村)
15
E( yi xi , Di 0) 0 xi
表示农村居民的消费水平
E( yi xi , Di 1) 0 1 xi
表示城市居民的消费水平 假设α1>0,可得到下图:
25
二、乘法类型(斜率变动模型) 以乘法形式引入虚拟变量,是在所设定的模型中,
将虚拟解释变量与其他解释变量相乘作为新的解 释变量,以达到调整斜率系数的目的。主要作用 在于: (1)比较两个回归模型; (2)分析因素间的交互影响; (3)提高模型的描述精度。
26
1、回归模型的比较
例如,研究改革开放前后储蓄、收入的总量关系, 分别设定模型如下:
假设学历有四个属性:博士、硕士、本科、本科以 下等,则:
1 (博士)
1 (硕士)
1 (本科)
D1 0
(其他) D2 0
(其他)
D3
0
(其他)
为什么四个属性只引入3个变量呢?
7
变量
属性
D1
D2
D3
博士
1
0
0
硕士
0
1
0
本科
0
0
1
本科以下
0
0
0
即:m个属性引入(m-1)个变量即可。
8
3.多个因素各两个属性的表示法 如需要同时表示城乡差别和性别差别
这就是虚拟变量陷阱问题!
23
克服虚拟变量陷阱的方法 改为引入虚拟变量:
1 ( 第 j 季,j 2, 3, 4) Dji 0 ( 其他季 )
即第一季度用D2i D3i D4i 0表示。
此时销售函数调整为:
Ci 0 2 D2i 3 D3i 4 D4i Pi i
24
引入虚拟变量的规则补充说明 对于具有m个属性的虚拟变量: 若模型中含有截距项,引入 m-1个虚拟变量; 若模型中不含有截距项,引入 m 个虚拟变量。
四、虚拟变量模型
在计量经济模型中,把包含有虚拟变量的模型称为 虚拟变量模型。
常用的有三种类型: (1)解释变量中只包含虚拟变量; (2)解释变量中既含有定量变量,又含有虚拟变
量; (3)被解释变量本身为虚拟变量。
12
第二节 虚拟解释变量的回归
一、加法类型(截距变动模型)
1、解释变量中只有虚拟变量 如:调查某地区性别与收入之间的关系,可以用
=1(第一季) =1(第二季) =1(第三季) =1(第四季) =0(其他季) =0(其他季) =0(其他季) =0(其他季) 如果引入4个虚拟变量会出现什么问题呢?
22
D1i D2i D3i D4i 1
可视为截距项的解释变 量,即α0= α0×1
所以引入4个虚拟变量出现了完全多重共线性的问 题! OLS法不能使用!
模型表示如下: Yi =α+βDi + ui
Yi代表收入,Di为虚拟变量:
1 Di 0
(男) (女)
13
代表女 性收入
代表男性与女性收
入之间的差额
OLS yˆ i ˆ ˆDi,对进行t检验,若 0,则说明收入与性别有 明显的关系。
14
2、解释变量中既有定量变量又有虚拟变量 如研究消费水平与居民收入的关系时,还要考虑城
10
三、虚拟变量的作用 1.可以描述和测量定性因素的影响 2.分离异常因素的影响
例如分析我国GDP的时间序列,必须考虑“文革” 因素对国民经济的破坏性影响,剔除不可比的“文 革”因素。 3.检验不同属性类型对因变量的作用 例如工资模型中的文化程度、季节对销售额的影响。 4.提高模型的精度
11
1 D1i 0
(城市) (农村)
1 D2i 0
(男性) (女性)
19
表示城市男性的消费水平
表示城市女性的消费水平
表示农村男性的消费水平
E( yi xi , D1i 0, D2i 0) 0 xi
表示农村女性的消费水平
20
Yi
α2
α1 α2
α0
Xi
21
虚拟变量陷阱 如某些商品的销售量有季节性,假设销售函数为: