当前位置:
文档之家› 第七章 模型选择:标准与检验(新)
第七章 模型选择:标准与检验(新)
•(c) 模型函数形式设定偏误时残差序列呈现 正负交替变化
图示:一元回归模型中,真实模型呈幂函数形 式,但却选取了线性函数进行回归。
7.7.3在线性模型和对数模型之间选择:MWD检验
H0:线性模型:Y是X 的线性函数 H1:对数线性模型:Y是X (或LnX)的线性函数
估计线性模型,得到Y的拟合值
察建模时是否遗漏了重要的相关变量。
(1)用原回归模型估计出商品进口序列
ˆ M t 152.91 0.020 GDP t
R2=0.9484
~ ˆ M t 3.860 0.072GDP 0.0028 ˆ t2 8.59E 07M t3 M
(-0.085) (8.274) (-6.457) R2=0.9842
模型设定偏误的后果
模型设定出现误差时,模型估计结果会
与“实际”有偏差。这种偏差的性质与 程度与模型设定误差的类型密切相关。
7.7模型设定误差的检验
7.7.1检验是否含有无关变量
可用t 检验与F检验完成。检验的基本思想:如果模 型中误选了无关变量,则其系数的真值应为零。因此, 只须对无关变量系数的显著性进行检验。 t检验:检验某1个变量是否应包括在模型中;
RESET 检验评价
优点:简单易行。
缺陷:可用于判断模型设定是否错误, 却不能帮助我们选择正确模型。
因此,该检验主要是诊断工具。
例:对商品进口进行研究,估计了中国商品进口
M与GDP的关系,然而,由于仅用GDP来解释商
品进口的变化,明显地遗漏了诸如商品进口价格、
汇率等其他影响因素。在此,采用RESET检验考
模型是对现实的抽象,模型应尽可能简洁 即能够用少数解释变量能够说明一个被解释 变量就不要用多个解释变量 每个参数只有一个估计值 对样本数据的拟合程度较好 参数估计值的符号与经济理论相符
预测值与经验值检验模型的有效性, 即具有良好的预测能力
7.2设定误差的类型:四个
遗漏相关变量
引入无关变量
采用了错误的函数形式
P86,第四章所介绍的“受限最小二乘”
用OLS法估计模型Y=0+1X1+2X2+
由于所有的经典假设都满足,因此 :
(1)OLS估计量无偏的,也是一致的 (2)从错误的回归方程中,得到的方差估计量是正确的 (3)置信区间和假设检验仍然是有效的
(4)但是,引入多余解释变量的模型的OLS估计量无效, 不具有最小方差性
第七章 模型选择:标准与检验
7.1"好的"模型具有的性质 7.2设定误差的类型 7.3遗漏相关解释变量的模型:过低拟合模型 7.4引入不相关解释变量模型:过度拟合模型
7.5不正确的函数形式
7.6变量的度量误差 7.7模型设定误差的检验
7.1“好的”模型具有的性质
简约性
可识别性 拟合优度 理论一致性 预测能力
1/3/2013
第六章 复习要点
• 多分类定性变量引入虚拟变量的一般原则
• 差别截距系数(加法引入虚拟变量参数估 计值)、差别斜率系数(乘法引入虚拟变 量参数估计值)的含义 • 回归结果分析:具体参见书后练习题重点 • 6.6, 6.7, 6.11, 6.13 , 6.16, 6.20, 6.21, 6.22, 6.27, 6.28
估计对数线性模型,得到LnY的拟合值
ˆ 求Z1i =LnYi - LnY i
做Y对X和Z1的回归
ˆ 求Z 2i =Yi -anti log LnYi
做LnY对X(或LnX )和Z2的回归
对Z1的系数进行变 量的显著性检验, 若显著,则拒绝H0
对Z2的系数进行变 量的显著性检验, 若显著,则拒绝H1
F检验:检验若干个变量是否应同时包括在模型中 (建议:F检验可以采用受限最小二乘,可以回答多 个变量是否包含在模型中)。
7.7.2对遗漏相关变量或函数形式设定偏误的检验
(1)残差图示法
•
残差序列变化图
(a)趋势变化 : 模型设定时可能遗 漏了一随着时间的 推移而持续上升的 变量
(b)循环变化: 模型设定时可能遗 漏了一随着时间的 推移而呈现循环变 化的变量
变量的度量误差
请注意:实践中的模型设定误差可能源于上述一个或多个原因。
设定误差产生的原因
对所研究问题的相关理论了解不深 未关注本领域前期的研究成果 在研究中缺乏相关数据 数据测量时有误差
7.3遗漏相关变量 采用遗漏相关变量的模型进行估计而带 来的误差称为遗漏相关变量误差
设正确的模型为 Y=B1+B2X1+B3X2+ 却错误设定为: Y=A1+ A2X1+v
本章练习题: 7.1~~7.10
7.11~~7.15
7.18
1/3/2013
举例:婴儿死亡率的决定因素
• • • • • 被解释变量:婴儿死亡率(CM) 解释变量:人均国民收入PGNP; 女性识字率 FLR 正确模型:上述三个变量模型(CM对PGNP、FLR回归) 错误模型:遗漏FLR变量的两个变量模型(CM对PGNP回归) 结论:不包含女性识字率的双变量模型,错误之处:不仅忽略 了遗漏变量“女性识字率”对婴儿死亡率的影响,而且,也忽 略了女性识字率对人均国民收入的影响。 • 因此,错误模型中的解释变量PGNP,就担负起遗漏变量“女 性识字率”对被解释变量(CM)的影响,从而无法表现出PGNP 对CM的真实的影响。 • 提示:在建立计量经济模型时,需要对所研究现象所蕴含的经 济理论做深入了解,目的是把相关变量都引入模型中。
基本思想: 如果事先知道遗漏了哪个变量,只需将此变量 引入模型,估计并检验其参数是否显著不为零即 可; 问题是不知道遗漏了哪个变量,需寻找一个替 代变量Z,来进行上述检验。 RESET检验中,采用所设定模型中被解释变量Y 的估计值Ŷ的若干次幂来充当该“替代”变量。
拉齐姆检验(RESET 检验)
(1)估计。先估计原始模型得到拟合值。 Yi 0 1 X i ui
遗漏解释变量将产生如下后果:
(1)如果漏掉的X2与X1相关,使得遗漏变量的模型的最小二 乘估计量是有偏的。即不仅代表了x1对被解释变量的直接 影响,还代表了对被解释变量的间接影响(经由x2)。
简言之,本应由x2对被解释变量的影响确体现在x1上。
第四章之4.9设定误差,分析了古钟拍卖价格与钟表年代、竞标人数的回归,(见 P83)
1/3/2013
7.4包含无关变量:过度拟合模型
包含无关变量#43; 1X1+v
(*)
为正确模型,但却估计了错误的模型: Y=0+1X1+2X2+ (**)
如果2=0,则(**)与(*)相同,因此,可将
(**)式视为以2=0为约束的(*)式的特殊形式。即
(2)观察残差与拟合值的关系,决定引入拟合值的若干 次幂进入模型作为“替代变量”。 (3)再估计。估计引入了“替代变量”的新模型。
ˆ ˆ Yi 0 1 X i 2Y i2 3Y i3 i
(4)检验和判断。若仅增加一个“替代”变量,可采用 t检验;若增加多个“替代”变量,可采用“受限最小二 乘”的F检验。
(2)错误模型的参数估计量也是不一致的,即参 数估计值的均值与其理论值不相等。
(3)如果X2与X1不相关,则遗漏变量的模型的估计量满足无 偏性与一致性。
(4)错误模型的随机误差项方差是真实随机误差方差的有
(5)错误模型的斜率系数方差也是有偏估计。 (6) 通常的置信区间和假设检验过程不再可靠,置信区间会 变宽,会更频繁接受零假设。
• 回归结果: • Y=1432.577+0.0616X-67.893D-0.0063DX • t=(5.765) (7.376) (-0.194) (-0.485)
1/3/2013
结论
• 前面的模型中引入了差别截距、差别斜率变量的 虚拟变量模型,由于D、DX参数估计值都不显著, 而引入虚拟变量D的差别截距模型(6-9) 的虚拟 变量系数显著,表明,差别斜率虚拟变量DX很可 能属于多余的。也就是说,食品支出模型中,正 确的引入解释变量,应该是定量变量:税后收入X, 虚拟变量D • 食品支出模型引入虚拟变量D,表明:男女食品 支出的平均水平(截距)存在差异,但男女食品 支出的变化率(斜率)无差异。
例P176: 因为Z1的系数显著,则拒绝H0:假设真实的进口支出 函数是线性的。 因为Z2的系数显著,则拒绝H1:假设真实的进口支出 函数是对数线性的。 根据上述结果,本例中两个模型都是合理的。
7.7.4一般性设定偏误检验
但更准确更常用的判定方法是拉姆齐(Ramsey) 于1969年提出的所谓RESET 检验(regression error specification test)。
1/3/2013
7.5错误函数形式
当选取了错误函数形式并对其进行估计 时,带来的偏误称错误函数形式偏误 容易判断,这种偏误所估计的模型参数估 计量是有偏估计。
例如,如果“真实”的回归函数为生产函数
Y AX11 X 2 2 e
却估计线性式:
Y 0 1 X 1 2 X 2 v
1/3/2013
基本假定违背:不满足基本假定的情况。
(1)模型设定有偏误;所选模型是正确设定的
基本假定 所选模型是正确设定的
(2)解释变量之间存在多重共线性;
基本假定 解释变量之间不存在完全线性关系
(3)随机误差项序列存在异方差性;
基本假定 误差项方差为常数
(4)随机误差项序列存在序列相关性。
基本假定 误差项之间不相关
小结:
OLS估计量是线性无偏估计量,但非最优,不再有效。
例7-2:举例说明
• 第六章中的6.5:食品支出模型 • 被解释变量:食品支出 • 解释变量:税后收入(x),“性别”(采用 加法引入和乘法引入两个变量(D、DX) • 模型: