习题解释概念(1)分类变量 (2)定量变量 (3)虚拟变量 ( 4)虚拟变量陷阱 (5)交互项(6)结构不稳定 (7)经季节调整后的时间序列答:(1)分类变量:在回归模型中,我们对具有某种特征或条件的情形赋值1,不具有某种特征或条件的情形赋值0,这样便定义了一个变量D :1,0,D ⎧=⎨⎩具有某种特征不具有某种特征我们称这样的变量为分类变量。
(2)具有数值特征的变量,如工资、工作年数、受教育年数等,这些变量就称为定量变量。
(3)在回归模型中,我们对具有某种特征或条件的情形赋值1,不具有某种特征或条件的情形赋值0,这样便定义了一个变量D :1,0,D ⎧=⎨⎩具有某种特征不具有某种特征我们称这样的变量为虚拟变量(dummy variable )。
(4)虚拟变量陷阱是指回归方程包含了所有类别(特征)对应的虚拟变量以及截距项,从而导致了完全共线性问题。
(5)交互项是指虚拟变量与定量变量相乘,或者两个定量变量相乘或是两个虚拟变量相乘,甚至更复杂的形式。
比如模型:12345i i i i i i i household lwage female married female married u βββββ=++++⋅+female married ⋅就是交互项。
(6)如果利用不同的样本数据估计同一形式的计量模型,可能会得到1β、2β不同的估计结果。
如果估计的参数之间存在着显著性差异,就称为模型结构不稳定。
(7)一些重要的经济时间序列,如果是受到季节性因素影响的数据,利用季节虚拟变量或者其他方法将其中的季节成分去除,这一过程被称为经季节调整的时间序列。
如果你有连续几年的月度数据,为检验以下假设,需要引入多少个虚拟变量如何设定这些虚拟变量(1)一年中的每一个月份都表现出受季节因素影响;(2)只有2、7、8月表现出受季节因素影响。
答:(1)对于一年中的每个月份都受季节因素影响这一假设,需要引入三个虚拟变量。
分别定义2D 、3D 、4D 如下:21,0,D ⎧=⎨⎩如果为夏季如果不为夏季 31,0,D ⎧=⎨⎩如果为秋季如果不为秋季 41,0,D ⎧=⎨⎩如果为冬季如果不为冬季(2)如果只有2、7、8月表现出受季节因素影响,则只需要引入一个虚拟变量。
定义2D 如下:21,0,D ⎧=⎨⎩如果受季节因素影响如果不受季节因素影响一个家庭的消费支出除了受收入水平的影响之外,还与子女的年龄结构密切相关。
如果家庭中有学龄子女,大笔开支会用在教育费用上。
分析家庭的收入水平对消费支出的影响,并引入适当的虚拟变量,检验家庭中有学龄子女对家庭的消费支出是否产生了影响。
分别考虑只影响截距;只影响斜率;二者都有影响的情形。
答:设当不考虑学龄时消费支出和收入水平的模型为:12income age u ββ=+⨯+引入虚拟变量110A ⎧=⎨⎩,有学龄子女,无学龄子女, 当只影响截距时,模型为:1231income age A u βββ=+++当只影响斜率时,模型为:1231income age age A u βββ=++⨯+如果既影响截距又影响斜率时,模型设定为:123141+age+income A age A ββββ=+⨯使用夏季作为参照季节,对例重新进行分析。
答:我们选择夏季为参照季节,分别定义1D 、3D 、4D 如下:11,0,D ⎧=⎨⎩如果为春季如果不为春季31,0,D ⎧=⎨⎩如果为秋季如果不为秋季 41,0,D ⎧=⎨⎩如果为冬季如果不为冬季设定模型为 12314354t t t t t t sale income D D D u βββββ=+++++其中夏季销售量方程的截距项为1β。
回归结果为:13429.490.20 5.640.008 5.28 (9.23) (32.15) (10.84) (0.01) (5.28) 0.973t t t t tsale income D D D t R =++-+=-=从回归结果中可以看出,如果个人可支配收入不变,第一季度的平均销售量比第二季度多,而且具有统计显著性,第三季度的平均销售量比第二季度少,而且不具有统计显著性,第四季度的平均销售量比第一季度的多,而且具有统计显著性。
可以看出气温影响了滑雪器具的销售,一季度、四季度的销售方程没有明显差别,这两个季度都是寒冷的季节,是滑雪器具销售的旺季。
二季度、三季度较为温暖,是滑雪器具销售的淡季,销售量明显少于一、四季度。
我们不再定义三个虚拟变量而是只区别旺季和淡季,重新对例进行估计。
答:如果只区分淡季和旺季,则只需要添加一个虚拟变量,定义虚拟变量:11,0,S ⎧=⎨⎩如果为旺季如果不为淡季设定模型为:1231t t t sale income S u βββ=+++估计回归模型可得:129.540.20 5.46 (9.79) (32.91) (15.19) 0.972t t sale income S t R =++==从显著性可以看出虚拟变量的系数是显著的,说明平均销售量和季节是有关系的。
假设Y 为某年美国汽油的消费量,解释变量为价格(price )和收入(income )。
1970~2000年间有三段时间汽油价格急剧上涨,导致了汽油消费行为模式的改变。
第1阶段开始于1974年,在OPEC (石油输出国组织)决定控制世界石油价格之后;第2阶段开始于1979年,在伊朗发生革命后不久;最一个阶段发生在1990年,正值伊朗入侵科威特。
我们有理由认为石油消费的价格弹性和收入弹性在这些阶段是不同的。
设基本模型为123ln ln ln i i i i Y price income u βββ=+++(1)如果各阶段的截距都相同,描述如何构建模型来检验不同的阶段石油消费行为是否发生了结构变化。
(2)如果收入弹性在三个阶段都不变,描述如何构建模型来检验不同的阶段石油消费行为是否发生了结构变化。
(3)如果三个阶段石油消费函数的截距项、石油消费的价格弹性和收入弹性可能都发生了变化,描述如何对其进行检验。
答:(1)引入虚拟变量:110D ⎧=⎨⎩,第二阶段,其他,21D ⎧=⎨⎩,第三阶段0,其他构建模型:1234152ln ln ln i i i i Y price income D D u βββββ=+++++(2)构建模型:1234152ln ln ln ln ln i i i i i i Y price income D income D income u βββββ=+++⨯+⨯+(3)构建模型:123415261728192ln ln ln ln ln ln ln i i i i i i i iY price income D income D income D D D price D price u βββββββββ=+++⨯+⨯+++⨯+⨯+计算机习题DATA7-5给出了未经季节调整的饰品、玩具和游戏的零售季度数据(1992年第一季度~2008年第二季度):考虑下面的模型:。
1223344t t t t t sales B B D B D B D u =++++其中,D 2=1:第二季度,0:其他;D 3=1:第三季度,0:其他;D 4=1:第四季度,0:其他;(1)估计上述回归。
(2)解释各个系数的含义。
(3)给出回归结果符合逻辑的解释。
(4)如何利用估计的回归结果消除季节模式答:(1)回归模型得:2342930.4158.6757.611338.11 (21.60) (0.96) (0.93) (21.63) 0.913t t t tsales D D D t R =+++==(2)1B 表示的是第一季度的零售额,2B 表示的是第二季度相比较第一季度的零售额增加量,3B 表示的是第三季度相比较于第一季度的零售额增加量,4B 表示的是第四季度相比较于第一季度的零售额增加量。
(3)从回归结果中可以看出,第一季度的零售额是,具有统计显著性,第二季度比第一季度增加,但是显著性水平不高,第三季度比第一季度增加,显著性水平也不高,第四季度比第一季度增加且具有统计显著性。
由此可以看出,在第一、四季度上对销售额的影响是比较大的。
这说明在第一和第四季度是这些商品的旺季,第二、三季度是销售的淡季。
这主要是因为在第一和第四季度上有像圣诞节这样的大型节日,促使了这些商品的消费。
(4)利用回归结果可知,残差项和自变量是不相关的,则利用上述模型即可将季节成分去除。
利用上题数据,估计下面的模型:11223344t t t t t t sales B D B D B D B D u =++++在这个模型中,每个季度都赋予一个虚拟变量。
(1)这个模型与上题的模型有何区别(2)估计这个模型,是否需要加上截距项(3)比较本题与上题的回归结果,你决定选择哪个模型为什么答:(1)从模型中可以看到,这个模型中增加了一项11t B D ,也就是说将第一季度也做为虚拟变量加入到了模型中。
(2)估计该模型时不需要加加上截距项。
(3)估计该模型可得:12342930.41989.08988.022268.5221.6022.9622.2551.080.913t t t t tsales D D D D t R =+++==从回归结果中可以看出,该模型的统计量都是显著的,而且拟合优度和上题中的一致。
可以看出该模型比上题中的模型要好。
DATA7-6给出了46个中产阶级个人收入及其他相关信息的数据,自变量包括:Experience ——工作年限;Management ——1,经理;0,非经理;Education ——1,高中;——2,大学;——3,研究生。
(1)直接利用表中受教育程度的数据进行回归分析合适吗会导致什么样的问题(2)利用Experience 、Management 以及重新设定后的受教育程度变量进行线性回归。
所有变量是统计显著的吗(3)建立一个新的模型,考虑经理人和非经理人因工作经历差异可能导致的收入增量差异。
写出回归结果。
(4)建立一个新的模型,考虑经理人和非经理人由于教育水平的差异可能导致的收入增量差异。
写出回归结果。
答:(1)不合适。
如果这样估计的话会导致回归结果不准确,致使不能正确估计模型。
(2)引入虚拟变量:110D ⎧=⎨⎩,大学,其他,21=0D ⎧⎨⎩,研究生,其他设定模型:1234152salary Experience managerment D D u βββββ=+++++估计方程得:122salary 8305.21540.636785.362817.612601.05 (20.16) (16.17) (19.72) (7.49) (6.02) 0.9Experience managerment D D t R =++++==48由此可以看出,每个系数的估计值都是显著的。