当前位置:文档之家› 第9章 含定性变量的回归模型

第9章 含定性变量的回归模型


§9.2 自变量定性变量回归模型的应用
一、分段回归 在实际问题中,我们会碰到某些变量在不同的影响因素 范围内变化趋势截然不同。对这种问题,有时用多种曲线 拟合效果仍不能令人满意。如果做残差分析,会发现残差 不是随机的,而具有一定的系统性,对这类问题,自然考 虑用分段回归的方法做处理。
例9.2 表9.3给出某工厂生产批量xi与单位成本yi(美元)的 数据。试用分段回归建立回归模型。
Coefficients Unstandardized Coefficients B Std. Error -8763.936 1270.878 4057.151 359.284 -776.939 2514.459 -787.564 663.367 Standardized Coefficients Beta .977 -.111 -.443
D i = 1, 当 x i > 500 D i = 0, 当 x i ≤ 500
引入两个新的自变量
xi1=xi xi2=(xi-500)Di
这样回归模型转化为标准形式的二元线性回归模型: yi=β0+β1xi1+β2xi2+εi (9.3)式可以分解为两个线性回归方程: 当x1≤500时,E(y)=β0+β1x1 当x1>500时,E(y)=(β0-500β2)+(β1+β2)x1 (9.3)
ANOVA Model 1 Regression Residual Total Sum of Squares 290372875.924 39856639.705 330229515.630 df 2 24 26 Mean Square 145186437.962 1660693.321 F 87.425 Sig. .000
(Constant) X1 X2 X3
t -6.896 11.292 -.309 -1.187
Sig. .000 .000 .760 .247
§9.3 因变量是定性变量的回归模型
在许多社会经济问题中,所研究的因变量往往只有两 个可能结果,这样的因变量也可用虚拟变量来表示,虚拟 变量的取值可取0或1。 一、定性因变量的回归方程的意义 设因变量y是只取0,1两个值的定性变量,考虑简单线 性回归模型 yi=β0+β1xi+εi 在这种y只取0,1两个值的情况下,因变量均值 E(yi)=β0+β1xi有着特殊的意义。 (9.12)
第九章 含定性变量的回归模型
9.1 9.2 9.3 9.4 9.5 9.6 9.7 自变量中含有定性变量的回归模型 自变量定性变量回归模型的应用 因变量是定性变量的回归模型 Logistic(逻辑斯蒂)回归 多类别Logistic回归 因变量是顺序变量的回归 本章小结与评注
在实际问题研究中,常常遇见一些非数量型变量, 如:性别,民族,正常年份,干旱年份,战争与和 平,改革前,改革后等,在建立一个经济问题的回 归方程时,常常考虑这些定性变量,如建立粮食产 量预测方程就应考虑到正常年份与受灾年份的不同 影响。 本章主要介绍自变量含定性变量的回归模型 和因变量是定性变量的回归 模型。
(Constant) X X2
t 9.757 -2.65 -1.69
Sig. .000 .045 .153
对β2的显著性检验的显著性概率Sig=0.153,β2没有通 过显著性检验,不能认为β2非零。用y对x做一元线性回归, 计算结果为:
Coefficients Unstandardized Coefficients B Std. Error 6.795 .324 -6.318E-03 .001 Standardized Coefficients Beta -.976
(Constant) X
t 20.963 -10.90Biblioteka Sig. .000 .000
二、回归系数相等的检验 例9.3 回到例9.1的问题,例9.1引入0-1型自变量的方 法是假定储蓄增加额y对家庭收入的回归斜率β1与家庭年 收入无关,家庭年收入只影响回归常数项β0,这个假设是 否合理,还需要做统计检验。检验方法是引入如下含有 交互效应的回归模型: yi=β0+β1xi1+β2xi2+β3xi1xi2+εi(9.8) 其中y为上一年家庭储蓄增加额, x1为上一年家庭总收入, x2表示家庭学历, 高学历家庭x2=1,低学历家庭x2=0。
用普通最小二乘法拟合模型(9.3)式得回归方程为:
ˆ y =5.895-0.00395x1-0.00389x2
利用此模型可说明生产批量小于500时,每增加1个单位 批量,单位成本降低0.00395美元;当生产批量大于500时, 每增加1个单位批量,估计单位成本降低 0.00395+0.00389=0.00784(美元)。
0 0 0 0 0
建立y对x1、x2的线性回归
Model Summary Adjusted R Square .869 Std. Error of the Estimate 1288.68
Model 1
R R Square a .938 .879
a. Predictors: (Constant), X2, X1
粮食产量的回归模型为: yi=β0+β1xi+β2Di+εi 其中干旱年份的粮食平均产量为: E(yi|Di=0)=β0+β1xi 正常年份的粮食平均产量为: E(yi|Di=1)=(β0+β2)+β1xi
例9.1 某经济学家想调查文化程度对家庭储蓄的 影响,在一个中等收入的样本框中,随机调查了13户 高学历家庭与14户中低学历的家庭, 因变量y为上一年家庭储蓄增加额, 自变量x1为上一年家庭总收入, 自变量x2表示家庭学历, 高学历家庭x2=1,低学历家庭x2=0, 调查数据见表9.1:
以上只是根据散点图从直观上判断本例数据应该用折 线回归拟合,这一点还需要做统计的显著性检验,这只需 对(9.2)式的回归系数β2做显著性检验。
Coefficients Unstandardized Coefficients B Std. Error 5.895 .604 -3.954E-03 .001 -3.893E-03 .002 Standardized Coefficients Beta -.611 -.388
回归模型(9.8)式可以分解为对高学历和对低学历家庭 的两个线性回归模型,分别为: 高学历家庭x2=1, yi=β0+β1xi1+β2+β3xi1+εi =(β0+β2)+(β1+β3)xi1+εi 低学历家庭x2=0, yi=β0+β1xi1+εi
要检验两个回归方程的回归系数(斜率)相等,等价 于检验 H0:β3=0, 当拒绝H0时,认为β3≠0,这时高学历与低学历家庭的 储蓄回归模型实际上被拆分为两个不同的回归模型。 当接受H0时,认为β3=0,这时高学历与低学历家庭的储 蓄回归模型是如下形式的联合回归模型: yi=β0+β1xi1+β2xi2+εi
用回归法算出的高学历家庭每年的平均储蓄额比低学 历的家庭平均少3824元,这是在假设两者的家庭年收入相 等的基础上的储蓄差值,或者说是消除了家庭年收入的影 响后的差值,因而反映了两者储蓄额的真实差异。而直接 由样本计算的差值2050.05元是包含有家庭年收入影响在 内的差值,是虚假的差值。所调查的13户高学历家庭的平 均年收入额为3.8385万元,14户低学历家庭的平均年收入 额为3.4071万元,两者并不相等。
Coefficients Unstandardized Coefficients B Std. Error -7976.809 1093.445 3826.129 304.591 -3700.330 513.445 Standardized Coefficients Beta .921 -.529
表9.1 序号 1 2 3 4 5 6 7
y(元) 235 346 365 468 658 867 1085
x1(万元) 2.3 3.2 2.8 3.5 2.6 3.2 2.6
x2 0 1 0 1 0 1 0
23 24 25 26 27
8950 9865 9866 10235 10140
3.9 4.8 4.6 4.8 4.2
由于yi是0-1型贝努利随机变量,则得如下概率分布: P(yi=1)=πi P(yi=0)=1-πi (9.13) 根据离散型随机变量期望值的定义,可得 E(yi)=1(πi)+0(1-πi)=πi 得到 E(yi)=πi=β0+β1xi
二、定性因变量回归的特殊问题 1. 离散非正态误差项。 对一个取值为0和1的因变量, 误差项εi=yi-(β0+β1xi)只能取两个值: 当yi=1时, 当yi=0时, εi=1-β0-β1xi=1-πi εi=-β0-β1xi=-πi
家庭年收入x1是连续型变量,它对回归的贡献也是 不可缺少的。如果不考虑家庭年收入这个自变量,13户 高学历家庭的平均年储蓄增加额为3009.31元,14户低 学历家庭的平均年储蓄增加额为5059.36元,这样会认 为高学历家庭每年的储蓄额比低学历的家庭平均少 5059.36-3009.31=2050.05元,而用回归法算出的数值 是3824元,两者并不相等。
二、复杂情况 某些场合定性自变量可能取多类值,例如某商厦策划营销 方案,需要考虑销售额的季节性影响,季节因素分为春、 夏、秋、冬4种情况。为了用定性自变量反应春、夏、秋、 冬四季,我们初步设想引入如下4个0-1自变量:
x1 = 1, x1 = 0,
x3 = 1, x3 = 0,
春季 其它
秋 季 其它
x2 = 1, x2 = 0,
x4 = 1, x4 = 0,
夏 季 其它
相关主题