虚拟变量的引入
反常年份:
E(Ct | X t , Dt 0) 0 1 X t
当截距与斜率发生变化时,则需要同时引入 加法与乘法形式的虚拟变量。
• 例,考察1990年前后的中国居民的总储蓄-收 入关系是否已发生变化。 下表中给出了中国1979~2001年以城乡 储蓄存款余额代表的居民储蓄以及以GNP代表 的居民收入的数据。
•男职工本科以上学历的平均薪金:
E(Yi | X i , D1 1, D2 1) (0 2 3 ) 1 X i
虚拟变量的建立
• 对于具有k类的定性变量来说,设哑变量时, 我们只设k-1个哑变量。
•பைடு நூலகம்例 分析某地区妇女的年龄、文化程度、及 居住地状况对其曾生子女数的影响。
• 定量变量: 年龄 • 定性变量:文化程度、地区 • 数据:妇女生育子女数
(4) 11,且22 ,即两个回归完全不同,称为 相异回归。
可以运用邹氏结构变化的检验。这一问题 也可通过引入乘法形式的虚拟变量来解决。
将n1与n2次观察值合并,并用以估计以下回归:
Yi 0 1 X i 3 Di 4 (Di X i ) i
Di为引入的虚拟变量:
1 Di 0
90年前 90年后
概念: 同时含有一般解释变量与虚拟变量的模
型称为虚拟变量模型或者方差分析模型。 一个以性别为虚拟变量考察企业职工薪
金的模型:
Yi 0 1 X i 2 Di i
其中:Yi为企业职工的薪金,Xi为工龄, Di=1,若是男性,Di=0,若是女性。
(二)虚拟变量的引入
虚拟变量做为解释变量引入模型有两种基 本方式:加法方式和乘法方式。 1. 加法方式
这种“量化”通常是通过引入“虚拟变量” 来完成的。根据这些因素的属性类型,构造只取 “0”或“1”的人工变量,通常称为虚拟变量, 记为D。
• 例如,反映文程度的虚拟变量可取为:
1, 本科学历 D=
0, 非本科学历
• 一般地,在虚拟变量的设置中:
• 基础类型、肯定类型取值为1; • 比较类型,否定类型取值为0。
保健 支出
大学教育 高中教育
低于中学教育
收入
• 还可将多个虚拟变量引入模型中以考察多种 “定性”因素的影响。
如在上述职工薪金的例中,再引入代表 学历的虚拟变量D2:
1 本科及以上学历 D2 0 本科以下学历
职工薪金的回归模型可设计为: Yi 0 1 X i 2 D1 3 D2 i
于是,不同性别、不同学历职工的平均薪金分别为:
上述企业职工薪金模型中性别虚拟变量的 引入采取了加法方式。
在该模型中,如果仍假定E(i)=0,则 企业女职工的平均薪金为:
E(Yi | X i , Di 0) 0 1 X i 企业男职工的平均薪金为:
E(Yi | X i , Di 1) ( 0 2 ) 1 X i 几何意义:
• 假定2>0,则两个函数有相同的斜率, 但有不同的截距。意即,男女职工平均薪金对 教龄的变化率是一样的,但两者的平均薪金水 平相差2。
曾生子女数 b0 b1年龄 b2EDU2 1.41 0.068年龄 1.13 0.28 0.068年龄
• 表明,对于相同年龄和居住地而言,小学 文化程度妇女比文盲妇女曾生子女数多出 b2个部分,即少生1.13个子女。
回归方程的解释
• 当教育程度为文盲、居住地为城市时,
曾生子女数 b0 b1年龄 b6AREA 1.41 0.068年龄 0.49 0.92 0.068年龄
表明,对于相同年龄和文化程度而言,城 市妇女比农村妇女曾生子女数多出b6个部 分,即少生0.49个子女。
回归方程的解释
• 总之,该回归方程表示: • 参照类妇女曾生子女数对年龄的回归直线
的截据为1.41,年龄每上升1岁,参照类 妇女的平均曾生子女数上升0.068个。 • 城市妇女比农村妇女的平均曾生子女数少 0.49个。 • 小学、初中、高中和大学文化程度妇女的 平均曾生子女数分别比文盲妇女少1.13、 1.31、1.58、1.57个(在年龄和居住地相 同时)。
• 加法方式引入虚拟变量,考察:截距的不同。 • 许多情况下:往往是斜率就有变化,或斜率、
截距同时发生变化。 • 斜率的变化可通过以乘法的方式引入虚拟变量
来测度。
例:根据消费理论,消费水平C主要取决于收 入水平Y,但在一个较长的时期,人们的消费倾 向会发生变化,尤其是在自然灾害、战争等反常 年份,消费倾向往往出现变化。这种消费倾向的 变化可通过在收入的系数中引入虚拟变量来考察。
• 高中以下: E(Yi | X i , D1 0, D2 0) 0 1 X i
• 高中: E(Yi | X i , D1 1, D2 0) (0 2 ) 1 X i
• 大学及其以上: E(Yi | X i , D1 0, D2 1) (0 3 ) 1 X i
假定3>2,其几何意义:
虚拟变量模型
(一)虚拟变量的基本含义
• 许多经济变量是可以定量度量的,如:商品需 求量、价格、收入、产量等。
• 但也有一些影响经济变量的因素无法定量度量, 如:职业、性别对收入的影响,战争、自然灾 害对GDP的影响,季节对某些产品(如冷饮) 销售的影响等等。
• 为了在模型中能够反映这些因素的影响,并提 高模型的精度,需要将它们“量化”。
回归方程的解释
• 当案例在两个分类变量都等于0时,即文化 程度为文盲,居住地在农村时,此种情况 称为参照类(其他情况将于此进行比较), 其回归方程为:
曾生子女数 1.41 0.068年龄
• 表明所有参照类妇女年龄每上升1岁,其曾 生子女数的平均变化量为0.068个。
回归方程的解释
• 当文化程度为小学,居住地为农村时:
如,设
1 正常年份 Dt 0 反常年份
消费模型可建立如下:
Ct 0 1 X t 2 Dt X t t
• 这里,虚拟变量D以与X相乘的方式引入了模型中, 从而可用来考察消费倾向的变化。
• 假定E(i)= 0,上述模型所表示的函数可化为:
正常年份:
E(Ct | X t , Dt 1) 0 (1 2 ) X t
Yt
0
1X t
2(Xt
X
* t
)Dt
t
OLS法得到该模型的回归方程为:
Yˆt
ˆ0
ˆ1 X t
ˆ2 (X t
X
* t
)Dt
则两时期进口消费品函数分别为:
当t<t*=1979年, Yˆt ˆ0 ˆ1Xt
当tt*=1979年,
Yˆt
(ˆ0
ˆ
2
X
* i
)
(
ˆ1
ˆ2 )X t
(三)虚拟变量的设置原则
在经济发生转折时期,可通过建立临界指 标的虚拟变量模型来反映。
例如,进口消费品数量Y主要取决于国民 收入X的多少,中国在改革开放前后,Y对X的 回归关系明显不同。
这时,可以t*=1979年为转折期,以1979 年的国民收入Xt*为临界值,设如下虚拟变量:
1 t t* Dt 0 t t *
则进口消费品的回归模型可建立如下:
73142.7
2237.6
10201.4
1998
53407.5
76967.2
3073.3
11954.5
1999
59621.8
80579.4
3801.5
14922.3
2000
64332.4
88228.1
5146.9
16917.8
2001
73762.4
94346.4
7034.2
18598.4
以Y为储蓄,X为收入,可令:
哑变量的建立
• 原变量编码值
哑变量赋值的操作
• 文化程度=1(文盲)
所有EDU=0
• 文化程度=2(小学) EDU=0
EDU2=1,其他
• 文化程度=3(初中) EDU=0
EDU3=1,其他
• 文化程度=4(高中) EDU=0
EDU4=1,其他
• 文化程度=5(大学) EDU=0
EDU5=1,其他
90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
表
1979~2001 年中国居民储蓄与收入数(据亿元)
储蓄
GNP
90年后
储蓄
GNP
281
4038.2
1991
9107
21662.5
399.5
4517.8
1992
11545.4
薪金Y
60 Y
40
男职工 女职工
20
2
0 0
0
X 工龄X
20
40
60
• 可以通过传统的回归检验,对2的统计显著性进行检验, 以判断企业男女职工的平均薪金水平是否有显著差异。
• 例:中国成年人体重y(kg)与身高x(cm) 的回归关系如下:
•
–105 + x D = 1 (男)
y = - 100 + x - 5D =
回归方程的解释
• 文化程度在实际中是一个序次变量。可以 用 bi bi1 表示序次变量个相邻分类的 实际效应,如初中的边际效应为:
b3 b2 1.31 (1.13) 0.18
类似,可以计算下面的边际效应: 小学= -1.13 初中= -0.18 高中= -0.27 大学= 0.01
2. 乘法方式
• 1990年前: Yi=1+2Xi+1i
i=1,2…,n1
• 1990年后: Yi=1+2Xi+2i
i=1,2…,n2
则有可能出现下述四种情况中的一种:
(1) 1=1 ,且2=2 ,即两个回归相同,称为重 合回归;