计量虚拟变量模型
1 春季 D1t 0 其他
1 夏季 D2t 0 其他 1 D3t 0
秋季 其他
1 春季 D1t 0 其他
1 夏季 D2t 0 其他
1 D3t 0
秋季 其他
则冷饮销售量的模型为:
Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t t
E(Yi | X i , D1 0, D2 0) 0 1 X i
•男职工本科以下学历的平均薪金:
E(Yi | X i , D1 1, D2 0) ( 0 2 ) 1 X i
•女职工本科以上学历的平均薪金:
E(Yi | X i , D1 0, D2 1) ( 0 3 ) 1 X i
如果只取六个观测值,其中春季与夏季取了 两次,秋、冬各取到一次观测值,则式中的:
1 1 1 ( X, D) 1 1 1 X 11 X k1 X 12 X k 2 X 13 X k 3 X 14 X k 4 X 15 X k 5 X 16 X k 6 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 1 0 0 1 0 0 0
在上述模型中,若再引入第四个虚拟变量 则冷饮销售模型变量为:
1 D4t 0
冬季 其他
Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t 4 D4t t
其矩阵 形式为:
B Y ( X, D) A U
t ( 4.77) (11.73) ( 0.40) (1.13) R 0.99
2
表明:受教育水平对平 均保健支出没有影响。 收入
• 还可将多个虚拟变量引入模型中以考察多种“定 性”因素的影响。
如在上述职工薪金的例中,再引入代表学历的虚拟 变量D2:
1 D2 0
本科及以上学历
表 5.1.1 90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 储蓄 281 399.5 523.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7034.2
1979~2001 年中国居民储蓄与收入数据(亿元) GNP 90年后 储蓄 4038.2 1991 9107 4517.8 1992 11545.4 4860.3 1993 14762.4 5301.8 1994 21518.8 5957.4 1995 29662.3 7206.7 1996 38520.8 8989.1 1997 46279.8 10201.4 1998 53407.5 11954.5 1999 59621.8 14922.3 2000 64332.4 16917.8 2001 73762.4 18598.4
E(Yi | X i , D1 1, D2 0) ( 0 2 ) 1 X i
大学教育 高中教育 低于高中教育
• 大学及其以上:E(Yi | X i , D1 0, D2 1) ( 0 3 ) 1 X i 假定3>2, 保健 支出 ˆ 1.29 0.17 其几何意义: Y X 0.07 D1 0.45D2
E(Yi | X i , D1 1, D2 0) ( 0 2 ) 1 X i
大学教育 高中教育 低于高中教育
• 大学及其以上:E(Yi | X i , D1 0, D2 1) ( 0 3 ) 1 X i 假定3>2, 保健 其几何意义: 支出
0 1 B k
1 2 A 3 4
1 春季 D1t 0 其他
1 夏季 D2t 0 其他
1 D3t 0
秋季 其他
1 冬季 D4t 0 其他
虚拟变量的个数须按以下原则确定: (1)若定性因素有m个相互排斥的类型或属性,只能引 入(m-1)个虚拟变量,否则会陷入“虚拟变量陷阱”,产 生完全共线性。(当无截距项时,应引入m个虚拟变量) (2)一般情况,虚拟变量取“0”值代表比较的基准。 例如,引入政府经济政策的变动对应变量的影响:
1 政策变动 Dt 0 政策不变
• 为了在模型中能够反映这些因素的影响,并提高 模型的精度,需要将它们“量化”。
这种“量化”通常是通过引入“虚拟变量”来 完成的。根据这些因素的属性类型,构造只取“0” 或“1”的人工变量,通常称为虚拟变量(dummy variables),记为D。
1 例如,反映文化程度的虚拟变量可取为:D t 0 1 反映性别的虚拟变量可取为: Dt 0 虚拟变量的作用: 本科学历 非本科学历 男 女
本科以下学历
职工薪金的回归模型可设计为:
Yi 0 1 X i 2 D1 3 D2 i
Yi 0 1 X i 2 D1 3 D2 i
于是,不同性别、不同学历职工的平均薪金分别为: •女职工本科以下学历的平均薪金:
1 本科及以上 D2 0 本科以下 0 女 D1 1 男
(1)将定性因素(或属性因素)对应变量的影响数量化, 当虚拟变量值取“1”时,表明质的影响发生作用,即代表 某种属性的因素存在或某种定性因素发生作用;取“0” 时… (2)引入虚拟变量后,相当于把不同属性类型的样本合 并,即相当于扩大样本容量,从而提高模型精度。 (3)分离异常因素的影响。
例如,一个以性别为虚拟变量考察企业职工薪金的模型:
收入
Yi 0 1 X i 2 D1 3 D2 i
1 D1 0 高中 其他 1 D2 0 大学及其以上 其他
在E(i)=0 的初始假定下,高中以下、高中、大学及其以上 教育水平下个人保健支出的函数:
• 高中以下: • 高中:
E(Yi | X i , D1 0, D2 0) 0 1 X i
Yi 0 1 X i 2 Di i
其中:Yi为企业职工的薪金(千元),Xi为工龄
1 男 Dt 0 女
ˆ 17.97 1.37X 1.33D Y t (93.61) (38.45) (8.57) R 2 0.99
女性平均年薪:
ˆ 17.97 1.37X Y
Yi 0 1 X i 2 D1 3 D2 i
1 D1 0 高中 其他 1 D2 0 大学及其以上 其他
在E(i)=0 的初始假定下,高中以下、高中、大学及其以上 教育水平下个人保健支出的函数:
• 高中以下: • 高中:
E(Yi | X i , D1 0, D2 0) 0 1 X i
(3)虚拟变量在单一方程中,可以作为解释变量,也 可以作为应变量。
三、虚拟变量的引入
• 虚拟变量做为解释变量引入模型有两种基本方式: 加法方式和乘法方式。
1、加法方式
Yi 0 1 X i 2 Di i
上述企业职工薪金模型中性别虚拟变量的引入采 取了加法方式。 在该模型中,如果仍假定E(i)=0,则 企业女职工的平均薪金为:
E(Yi | X i , Di 0) 0 1 X i
企业男职工的平均薪金为:
E(Yi | X i , Di 1) ( 0 2 ) 1 X i
Yi 0 1 X i 2 Di i 几何意义: • 假定2>0,则两个函数有相同的斜率,但有不同 的截距。意即,男女职工平均薪金对工龄的变化 率是一样的,但两者的平均薪金水平相差2。 • 可以通过传统的回归检验,对2的统计显著性进 行检验,以判断企业男女职工的平均薪金水平是 否有显著差异。 • 2称为截距差异系数。
第九章 虚拟变量模型
一、虚拟变量的基本含义 二、虚拟变量的设置原则 三、虚拟变量的引入
一、虚拟变量的基本含义
• 许多经济变量是可以定量度量的,如:商品需求 量、价格、收入、产量等。 • 但也有一些影响经济变量的因素无法定量度量, 如:职业、性别对收入的影响,战争、自然灾害 对GDP的影响,季节对某些产品(如冷饮)销售 的影响等等。
0 1 B k
1 2 A 3 4
显然,(X,D)中的第1列可表示成后4列的线性组合, 从而(X,D)不满秩,参数无法唯一求出。 这就是所谓的“虚拟变量陷阱”,应避免。
二、虚拟变量的设置原则
如,设
1 Dt 0
正常年份 反常年份
消费模型可建立如下:
Ct 0 1 X t 2 Dt X t t
• 这里,虚拟变量D以与X相乘的方式引入了模型中, 从而可用来考察消费倾向的变化。 • 假定E(i)= 0,上述模型所表示的函数可化为:
正常年份:
E(Ct | X t , Dt 1) 0 ( 1 2 ) X t
男性平均年薪:
表明:当性别变量为常数时, 工龄每增加一年,平均年薪增 加 1370元,当工龄保持不变时, 男性的平均年薪比女性多 1330 元,性别对薪金的影响是显著 的。
ˆ (17.97 1.33) 1.37X 19.30 1.37X Y
二、虚拟变量的设置原则
虚拟变量的个数须按以下原则确定: (1)若定性因素有m个相互排斥的类型或属性,只能引 入(m-1)个虚拟变量,否则会陷入“虚拟变量陷阱”,产 生完全共线性。(当无截距项时,应引入m个虚拟变量) 例。已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受 春、夏、秋、冬四季变化的影响,要考察该四季的影响,只 需引入三个虚拟变量即可:
反常年份:
E(Ct | X t , Dt 0) 0 1 X t
此处, 2称为斜率差异系数。