当前位置：文档之家› Stata实验指导、统计分析与应用chap07

Stata实验指导、统计分析与应用chap07

二、实验数据和实验内容
根据统计资料得到了某市旅游业的相关数据，变量主
要包括：Y=旅游收入（单位：万元），X1=某市旅游人数（单位：人），X2=城镇居民人均旅游支出（单位：元），X3=农村居民人均旅游支出（单位：元）， X4=公路里程（单位：公里），X5=铁路里程（单位：公里）。完整的数据在本书附带光盘的data文件夹的 “lvyou.dta”工作文件中。
在这个公式中，e代表残差序列，n代表样本数量， K代表解释变量的个数。通过这个目标函数可以看出，第一项是对拟合优度的奖励，即尽可能地使残差平方和变小，第二项是对解释变量个数增多的惩罚，因为目标函数是解释变量个数的增函数。（2）贝叶斯信息准则，又称为BIC准则，其基本思想是通过选择解释变量的个数，使得如下目标函数最小。
项 n(#)的功能是指定BIC准则中的n值，一般使用默认值。例如，利用wage1的数据，获得模型

的AIC和BIC值，应该输入以下命令： use c:\data\wage1.dta, clear reg lwage educ exper tenure estat ic 第一个命令表示打开数据文件wage1，第二个命令语句是对模型进行回归估计，第三个命令就是进行信息准则值的计算，计算结果如图7.5所示，AIC值为635.10，BIC 值为652.16。
这里不再赘述这些命令语句的含义，调整之后的检验
结果如图7.4所示，可以发现此时检验的p值为0.5404，无法拒绝原假设，即认为模型不再存在遗漏变量。
实验7-2解释变量个数的选择
一、实验基本原理
好的经济理论的标准通常是希望通过更为简洁的模型来更
加精确地描述复杂的经济现象，但是这两个目标通常是矛盾的，因为通过增加解释变量的个数可以提高模型的精确程度，但是同时也牺牲了模型的简洁性。因此，在现实的经济研究过程中，通常使用信息准则来确定解释变量的个数，较为常用的信息准则有两个：（1）赤池信息准则，又称为AIC准则，其基本思想是通过选择解释变量的个数，使得如下目标函数最小。
实验7-3多重共线性与逐步回归法
一、实验基本原理
多重共线性问题在多元线性回归分析中是很常见的，其导致的

直接后果是方程回归系数估计的标准误差变大，系数估计值的精度降低等。多重共线性的问题对于Stata软件来说并不显著，因为Stata会自动剔除完全的多重共线性，但是出于知识的完整性，这里还是介绍一下Stata对于多重共线性的识别和处理方法。多重共线性的诊断方法主要有：（1）直观上说：当模型的拟合优度非常高且通过F检验，但多数解释变量都不显著，甚至解释变量系数符号相反时，可能存在多重共线性。（2）对由解释变量所组成的序列组进行相关分析时，如果有些变量之间的相关系数很高，则也反映出可能存在多重共线性。（3）使用命令estat vif，对膨胀因子进行计算，经验上当VIF的均值 >=2且VIF的最大值接近或者超过10时，通常认为有较为严重的多重共线性。
varlist为将要计算相关系数的变量，if为条件语句，in 为范围语句，weight为权重语句，options选项如表7.1 所示。
在本实验中，可以通过计算变量X1、X2、X3、X4和
X5之间的相关系数来判断模型是否存在多重共线性，所使用的命令为： pwcorr X1 X2 X3 X4 X5 这个命令语句显示的相关系数矩阵如图7.9所示，通过观察可以得到解释变量X1与X2、X4、X5之间，X2与 X3、X4、X5之间，以及X4与X5之间的相关系数非常高，因此可以认为解释变量之间存在较为严重的多重共线性。
例如，利用wage1的数据，检验模型
是否遗漏了重要的解释变量，应该输入以下命令： use c:\data\wage1.dta,clear reg lwage educ exper tenure linktest 第一个命令表示打开数据文件wage1，第二个命令语句是对模型进行回归估计，第三个命令就是进行遗漏变量的Link检验，检验结果如图7.1所示。从第二个表格中，可以看到hatsq项的p值为0.018，拒绝了hatsq系数为零的假设，即说明被解释变量lwage 的拟合值的平方项具有解释能力，所以可以得出结论原模型可能遗漏了重要的解释变量。
2.多重共线性检验
多重共线性的检验通常采取两种方法，一种是计算膨
胀因子，一种是计算变量之间的相关系数，下面将会详细介绍。（1）计算膨胀因子的命令为： estat vif [, uncentered] 在这个命令语句中，estat vif是计算膨胀因子的命令语句，uncentered选项通常使用在没有常数项的模型中。

在这个公式中，e代表残差序列，n代表样本数量，K
代表解释变量的个数。通过这个目标函数可以看出， BIC准则与AIC准则的唯一区别就是K的权重不同，一般来说ln(n)>2，所以BIC更加注重模型的简洁性。
二、实验数据和实验内容：
根据统计资料得到了美国工资的横截面数据，变
量主要包括：wage=工资，educ=受教育年限， exper=工作经验年限，tenure=任职年限，lwage= 工资的对数值。完整的数据在本书附带光盘的 data文件夹的“wage1.dta”工作文件中。
利用wage1的数据，来确定以下两个模型：
模型
和模型哪个更为合理（其中educ2和exper2分别为educ和 exper的平方项）。
三、实验操作指导
使用信息准则，对模型进行检验的命令如下： estat ic [, n(#)] 在这个命令语句中，estat ic是进行检验的命令语句，选
在图7.3中，第一个图表仍然是回归结果，第二部分则
是Ramsey检验的结果，不难发现Ramsey检验的原假设是模型不存在遗漏变量，检验的p值为0.0048，拒绝原假设，即认为原模型存在遗漏变量。
为了进一步验证添加重要变量是否会改变Ramsey检验
的结果，我们采取Link检验中的方法，生成受教育年限educ和工作经验年限exper的平方项，重新进行回归并进行检验，这时输入的命令如下： gen educ2=educ^2 gen exper2=exper^2 reg lwage educ exper tenure educ2 exper2 estat ovtest
当确认模型存在多重共线性时，通常有两种解决方法
消除其影响：一种是收集更多的数据，增大样本容量；另一种是通过逐步回归，改进模型的形式。在现实研究过程中，增大样本容量的操作不易执行，所以逐步回归法应用更为广泛。
逐步回归法的基本原理是：先分别拟合被解释变量对
于每一个解释变量的一元回归，并将各回归方程的拟合优度按照大小顺序排列，然后将拟合优度最大的解释变量作为基础变量，然后逐渐将其他解释变量加入模型中并同时观测t检验值的变化，如果t检验显著则保留该变量，否则去除，不断重复此过程直到加入所有显著的解释变量。
exper=工作经验年限，tenure=任职年限，lwage= 工资的对数值。完整的数据在本书附带光盘的 data文件夹的“wage1.dta”工作文件中。
利用wage1的数据，分别利用Link方法和Ramsey方法检验模型
是否遗漏了重要的解释变量。
三、实验操作指导
1.使用Link方法检验遗漏变量
为了对比分析，我们仍然采取Link检验中的方法，生

成受教育年限educ和工作经验年限exper的平方项，建立新的模型重新对其进行回归并计算，这时输入的命令如下： gen educ2=educ^2 gen exper2=exper^2 reg lwage educ exper tenure educ2 exper2 estat ic 这里不再赘述这些命令语句的含义，调整之后的计算结果如图7.6所示，可以发现此时计算的AIC值为 583.66，BIC值为609.25。通过这两个模型信息准则值的对比分析，可以得出结论，第二个模型的信息准则值更小，所以此模型优于第一个模型。

为了进一步验证添加重要变量是否会改变Link检验的

结果，我们生成受教育年限educ和工作经验年限exper 的平方项，重新进行回归并进行检验，这时输入的命令如下： gen educ2=educ^2 gen exper2=exper^2 reg lwage educ exper tenure educ2 exper2 linktest 第一个命令语句的作用是生成变量educ2，使其值为变量educ的平方；第二个命令语句的作用是生成变量 exper2，使其值为变量exper的平方；第三个命令语句的作用是对进行回归估计;第四个命令就是进行遗漏变量的Link检验，检验结果如图7.2所示。
主要内容：
1、遗漏变量的检验
2、解释变量个数的选择
3、多重共线性与逐步回归法
4、极端数据的诊断与处理
5、虚拟变量的处理
6、经济结构变动的Chow检验
实验7-1遗漏变量的检验
一、实验基本原理
二、实验数据和实验内容
根据统计资料得到了美国工资的横截面数据，变量主要包括：wage=工资，educ=受教育年限，

是否遗漏了重要的解释变量，应该输入以下命令： use c:\data\wage1.dta,clear reg lwage educ exper tenure estat ovtest
在这组命令语句中，第一个命令的功能是 Nhomakorabea开数据文
件，第二个命令是对模型进行回归估计，第三个命令就是进行遗漏变量的Ramsey检验，检验结果如图7.3所示。
在本实验中，在回归之后输入此命令，就可得到如图
7.8所示的膨胀因子数值。结果显示该模型的膨胀因子的平均值为14.50，远远大于经验值2，膨胀因子最大值为20.06，远远大于经验值10，所以可以认为该模型存在严重的多重共线性。

e商务文档

Stata实验指导、统计分析与应用chap07

相关文档推荐：