虚拟变量
D= 0, 非本科学历
一般地,在虚拟变量的设置中:
• 基础类型、肯定类型取值为1;
• 比较类型,否定类型取值为0。
概念:
同时含有一般解释变量与虚拟变量的模型称为虚拟 变量模型。
例1:为了考察企业职工薪金收入(Yi)的情况, 以工龄(Xi)和性别(Di)为影响因素,建立如 下模型:
Yi 0 1 X i 2 Di i
其中: Di=1,若是男性, Di=0,若是女性。
二、虚拟变量的引入
• 虚拟变量做为解释变量引入模型有两种基本方式:加法 方式和乘法方式。
1、加法方式
上述企业职工薪金模型中性别虚拟变量的引入: Yi 0 1 X i 2 Di i
在该模型中,如果仍假定E(i)=0,则 企业女职工的平均薪金为:
表中给出了中国1979~2001年以城乡储蓄存款余 额代表的居民储蓄以及以GNP代表的居民收入的数 据。
90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
表 5.1.1
储蓄 281 399.5 523.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7034.2
R 2 =0.9836
由2与3的t检验可知:参数显著地不等于0,强 烈示出两个时期的回归是相异的,
储蓄函数分别为:
1990年前: 1990年后:
Yˆi 1649.7 0.4116Xi Yˆi 15452 0.8881Xi
三、虚拟变量的设置原则
虚拟变量的个数须按以下原则确定:
如果某个定性变量有m种相互排斥的类型,则模型中只能 引入m-1个虚拟变量。否则会陷入所谓的“虚拟变量陷阱”, 产生完全共线性。
t........(3.1)....(12.4)
R2 0.833 DW 0.398
• 模型隐含着一个重要假定: 我国城镇居民家庭的储 蓄行为在1955年至1985年期间是不变的。假定未必 能够成立,因为,与居民储蓄有关的许多重要因素 在1979年以后发生了明显变化,主要表现为:
• 1)在经济体制改革之前,我国居民的收入一直在低水平上徘 徊,大多数居民家庭的收入仅能维持温饱,因而平均储蓄倾 向很低,积蓄很少;1979年之后,我国居民的收入水平迅速 提高,与此同时,居民储蓄也在大幅增长。前后两个时期, 我国居民的储蓄行为有显著差异;
1979年以后:
St 61.7 0.256Xt
• 估计结果表明:1979年之前,我国城镇 居民的边际储蓄倾向仅为0.004,即收入 增加一元储蓄平均增加4厘;而在1979— 1985年期间,城镇居民边际储蓄倾向高 达0.256。
消费模型可建立如下:
Ct 0 1 X t 2 Dt X t t
• 这里,虚拟变量D以与X相乘的方式引入了模型中,从而 可用来考察消费倾向的变化。
• 假定E(i)= 0,上述模型所表示的函数可化为:
正常年份:
反常年份:
当截距与斜率都发生变化时,则需要同时引入 加法与乘法形式的虚拟变量。
• 例5,考察1990年前后中国居民的总储蓄(Y)-收 入(X)关系是否已发生变化。
第八章 虚拟变量
一、虚拟变量的基本含义 二、虚拟变量的引入 三、虚拟变量的设置原则
一、虚拟变量的基本含义
• 许多经济变量是可以定量度量的,如:商品需求 量、价格、收入、产量等
• 但也有一些影响经济变量的因素无法定量度量, 如:职业、性别对收入的影响,战争、自然灾害 对GDP的影响,季节对某些产品(如冷饮)销售 的影响等等。
在统计检验中,如果3=0的假设被拒绝,则说明两个 时期中储蓄函数的斜率不同,即储蓄倾向不一样。如果 2=0的假设被拒绝,则说明两个时期中储蓄的基数存在 显著差异。
• 具体的回归结果为:
Yˆi 15452 0.8881Xi 13802.3Di 0.4765Di Xi
(-6.11) (22.89) (4.33) (-2.55)
• 斜率的变化可通过以乘法的方式引入虚拟变量来 测度。
例4:根据消费理论,消费水平C主要取决于收入 水平X,但在一个较长的时期,人们的消费倾向会发 生变化,尤其是在自然灾害、战争等反常年份,消 费倾向往往出现变化。这种消费倾向的变化可通过 在收入的系数中引入虚拟变量来考察。
如,设
1 Dt 0
正常年份 反常年份
• 还可将多个虚拟变量引入模型中以考察多种 “定性”因素的影响。
例3: 在上述职工薪金的例中,除了工龄和性别两个自变 量外, 再引入代表学历的虚拟变量C:
本科及以上学历 本科以下学历
职工薪金的回归模型可设计为:
2、乘法方式
• 加法方式引入虚拟变量,考察:截距的不同,
• 许多情况下:往往是斜率就有变化,或斜率、截 距同时发生变化。
10201.4
1998
53407.5
11954.5
1999
59621.8
14922.3
2000
64332.4
16917.8
2001
73762.4
18598.4
GNP
21662.5 26651.9 34560.5 46670.0 57494.9 66850.5 73142.7 76967.2 80579.4 88228.1 94346.4
年薪 Y
2 0
男职工 女职工
工龄 X
例2:在横截面数据基础上,考虑个人保健支 出(Y)对个人收入(X)和教育水平(D)的回 归。
教育水平(D)考虑三个层次:
高中以下, 高中, 大学及其以上
这时需要引入两个虚拟变量:
1 D1 0
高中 其他
模型可设定如下:
1 D2 0
大学及其以上 其他
在E(i)=0 的初始假定下,高中以下、高中、大 学及其以上教育水平下个人保健支出的均值:
• 在上述模型中,若再引入第四个虚拟变量
1 冬季 D4t 0 其他
则冷饮销售模型变量为:
Yt 0 1 X1t k X kt 1D1t 2 D2t 3 D3t 4 D4t t
Y (X,D)α β μ
如果只取六个观测值,其中春季与夏季取了 两次,秋、冬各取到一次观测值,则式中的:
• 2)在改革开放前的大多数年份,我国的消费品市场存在严重 短缺的现象。消费者既使有钱也难以买到所需的商品,而不 得不把钱暂时存起来。因此,这一时期储蓄带有“非自愿” 的性质;而在1979年之后,消费品市场日趋丰富,消费者储 蓄的主要目的之一是购买高档耐用消费品,储蓄不再具有 “被迫”性质。
• 为了验证城镇居民储蓄行为的变化,建 立如下截距和斜率同时变动模型:
例。已知冷饮的销售量Y除受k种定量变量Xk的影 响外,还受季节这个定性变量的影响,而季节有四个 相互排斥的类型——春、夏、秋、冬,所以需引入 ? 个虚拟变量:
1 春季 D1t 0 其他
1 夏季 D2t 0 其他
1 D3t 0
秋季 其他
则冷饮销售量的模型为:
Yt 0 1 X1t k X kt 1D1t 2 D2t 3 D3t t
St 0 1Xt 2D 3DX t ut
用最小二乘法得:
1 D 0
t 1979 t 1979
St 61.7 0.256Xt 55.7Dt 0.252Dt Xt
(2.18) (8.1) (3.9) (-9.2)
R 2 0.967
DW 1.6704Xt
• 高中以下: • 高中: • 大学及其以上:
假定3>2>0, 其几何意义:
大学教育
保健
高中教育
支出
低于中学教育
收入
• 还可将多个虚拟变量引入模型中以考察多种 “定性”因素的影响。
例3: 在上述职工薪金的例中,除了工 龄和性别两个自变量外, 再考虑学历的 影响,此时怎么处理?
(学历分为本科及以上、本科以下两种)
1979~2001 年中国居民储蓄与收入数据(亿元)
GNP
90年后
储蓄
4038.2
1991
9107
4517.8
1992
11545.4
4860.3
1993
14762.4
5301.8
1994
21518.8
5957.4
1995
29662.3
7206.7
1996
38520.8
8989.1
1997
46279.8
这就是所谓的“虚拟变量陷井”,应避免。
案例分析:中国城镇居民家庭的储蓄函数
• 根据我国城镇居民家庭1955—1985年人 均收入(X)和人均储蓄(S)的数据资料(以 1955年的物价水平为100),建立储蓄模 型:
St 0 1X t ut
• 用最小二乘法得估计结果为:
•
St 33.4 0.17X t
1 X 11 1 X 12 (X,D) 1 X13 1 X 14 1 X 15 1 X 16
X k1 X k2 X k3 X k4 X k5 X k6
1 0 0 0 0 1 0 0
0
0
1
0
0 0 0 1
0
1
0
0
1 0 0 0
0
β
1 k
1
α
2 3 4
显然,(X,D)中的第1列可表示成后4列的线性组合, 从而(X,D)不满秩,参数无法唯一求出。
• 为了在模型中能够反映这些因素的影响,并提高 模型的精度,需要将它们“量化”,
这种“量化”通常是通过引入“虚拟变量”来 完成的。根据这些因素的属性类型,构造只取“0” 或“1”的人工变量,通常称为虚拟变量(dummy variables),记为D。
• 例如,反映文化程度的虚拟变量可取为: 1, 本科学历