《数据分析实务与案例实验报告》曲线估计学号: 204班级: 2013 应用统计姓名:日期: 2 0 1 4 – 12 – 7数学与统计学学院一、实验目的1. 准确理解曲线回归分析的方法原理。
2. 了解如何将本质线性关系模型转化为线性关系模型进行回归分析。
3. 熟练掌握曲线估计的SPSS 操作。
4. 掌握建立合适曲线模型的判断依据。
5. 掌握如何利用曲线回归方程进行预测。
6. 培养运用多曲线估计解决身边实际问题的能力。
二、准备知识1. 非线性模型的基本内容变量之间的非线性关系可以划分为 本质线性关系和本质非线性关系。
所谓本质线性关系是指变量关系形式上虽然呈非线性关系,但可以通过变量转化为线性关系,并可最终进行线性回归分析,建立线性模型。
本质非线性关系是指变量之间不仅形式上呈现非线性关系,而且也无法通过变量转化为线性关系,最终无法进行线性回归分析,建立线性模型。
本实验针对本质线性模型进行。
下面介绍本次实验涉及到的可线性化的非线性模型,所用的变换既有自变量的变换,也有因变量的变换。
乘法模型:123y x x x βγδαε=其中α,β,γ,δ 都是未知参数,ε是乘积随机误差。
对上式两边取自然对数得到123ln ln ln ln ln ln y x x x αβγδε=++++上式具有一般线性回归方程的形式,因而用多元线性回归的方法来处理。
然而,必须强调指出的是,在求置信区间和做有关试验时,必须是2ln (0,)n N I εδ ,而不是2n N I εδ(0,) ,因此检验之前,要先检验ln ε 是否满足这个假设。
三、实验内容已有很多学者验证了能源消费与经济增长的因果关系,证明了能源消费是促进经济增长的原因之一。
也有众多学者利用C-D 生产函数验证了劳动和资本对经济增长的影响机理。
所有这些研究都极少将劳动、资本、和能源建立在一个模型中来研究三个因素对经济增长的作用方向和作用大小。
现从我国能源消费、全社会固定资产投资和就业人员的实际出发,假定生产技术水平在短期能不会发生较大变化,经济增长、全社会固定资产投资、就业人员、能源消费可以分别采用国内生产总值、全社会固定资产投资总量、就业总人数、能源消费总量进行衡量,并假定经济增长与能源消费、资本和劳动力的关系均满足C-D 生产函数。
问题中的C-D 生产函数为:Y AK L E αβγ=式中:Y 为GDP ,衡量总产出;K 为全社会固定资产投资,衡量资本投入量;L 为就业人数,衡量劳动投入量;E 为能源消费总量,衡量能源投入量;A,α,β, γ 为未知参数。
根据C-D 函数的假定,一般情形α,β,γ均在0和1之间,但当α,β,γ中有负数时,说明这种投入量的增长,反而会引起GDP 的下降,当α,β,γ中出现大于1的值时,说明这种投入量的增加会引起GDP 成倍增加,这在经济学现象中都是存在的。
以我国1985—2004年的有关数据建立了SPSS 数据集,参见“”。
请以此数据集为基础估计生产函数中的未知参数。
四、实验步骤及结果分析1. 确定非线性回归模型的类型有上述分析过程确定要建立的回归模型为:Y AK L E αβγ=式中,Y 为自变量,K,L,E 为解释变量,A 为常数项。
2. 通过变换将非线性方程转化为线性方程将原回归模型两遍同时取对数:ln ln ln ln ln Y A K L E αβγ=+++得:123y c x x x αβγ=+++式中,123ln ,ln ,ln ,ln ,ln y Y c A x K x L x E ===== 。
选择【转换】—【计算变量】,对所有数据取对数完成数据的处理,过程及结果如下图:3. 进行初步线性回归分析(选入所有变量)用最小二乘法建立回归方程由非线性模型转化为线性模型后,即可按照建立多元线性回归模型的步骤进行操作,求得回归方程表达式。
(1) 选择【分析】→【回归】→【线性】,弹出“线性回归”对话框。
将lnY 选入“因变量”框,lnk 到lnE 选入“自变量”框。
注意,可以通过点击“上一张”与“下一张”按钮切换,选择不同的自变量构建模型,每个模型中可以对不同的自变量采用不同的方法进行回归。
“方法”下拉框中有5个选项,此处先选择“进入”,即所选变量全部强行进入回归模型。
(2) 点击“统计量”按钮,选择输出各种常用判别统计量,本案例选择“估计”、 “模型拟合度”、“描述性”、“共线性诊断”,以及残差中的“Durbin-Watson ”检验和“个案诊断”。
得到如下结果:由模型汇总表,20.991R =,20.989R =,拟合优度很强。
统计量DW=,该检验用于判断相邻残差序列的相关性,其判断标准如下: DW<d L ,认为残差序列存在正的一阶自相关;d u <DW<4-d U ,认为残差序列间不存在一阶自相关;DW>4-d L ,认为残差序列间存在负的一阶自相关;d L <DW<d U 或4-d U <DW<4-d L 时,无法确定残差序列是否存在自相关。
本例中,k=4,n=21(k 为解释变量的数目,包括常数项,n 是观察值的数目)时,5%的上下界:dL=,dU=。
有l DW d < ,认为残差序列存在一阶自相关。
由方差分析表,统计量F=,p 值小于,认为方程在95%的置信水平下是显著的。
但是,0.025(2131) 2.110t --= 变量lnK 、lnL 、常量lnA 的t 值均大于,所以这几个变量对方程的影响都很显著,而变量lnE的t值很小且p值明显大于且回归系数为零,说明该变量对方程影响不显著,回归模型是无效的。
4.消除模型中变量的共线性(逐步回归)“共线性统计量”中,容忍度Tolerance越接近于0,表示复共线性越强,越接近于1,复共线性越弱。
而方差膨胀因子VIF的值越接近于1,解释变量间的多重共线性越弱,如果VIF的值大于或等于10,说明一个解释变量与其他解释变量之间有严重的多重共线性。
本例中,变量lnK和lnE的VIF值都大于10,说明它们与其他解释变量之间有严重的多重共线性,不符合经典假设,需要修正。
通过以上结果分析,采用逐步回归的方法来消除变量之间的多重共线性。
重复以上步骤从新建立回归方程,将【进入】替换为【逐步】如下图所示:得到如下结果:从上表可以看出通过逐步回归剔除掉了变量lnE,整个模型的拟合优度上升,调整R方从上升至。
方差膨胀因子VIF值均小于10,多重共线性已消除。
T 检验的概率明显小于说明变量对模型的影响显著。
而此时DW值并未有明显改变,残差序列仍然存在一阶自相关。
此时采用数据变换的方法来消除残差的自相关。
5.消除残差的自相关对于自相关的处理方法,其基本思想是通过一些数学转化,对数据进行处理,消ρ=除数据的自相关性,在对参数进行估计。
当误差序列的自相关系数已知,且1时,采用差分法,即利用增量数据来代替原有的样本数据建立方程。
当误差序列的自相关系数未知时,先求处自相关系数,再通过反复迭代法消除来自相关。
我们知道DW与ρ之间的近似关系:≈-2(1)DWρ其中:因为DW=,代入上式很明显得出ρ 不为1,所以此处不能用差分而采用迭代的方法消除自相关性。
这里先求出lny 的一元线性回归方程:ln 4.5290.655ln 0.782ln y K L =-++ 中的残差i e ,i=1, … ,n,将残差代入如下公式:11,112,()()n in i n e e e e r --+--=∑其中11,12,11211,11n n n i n i i i e e e e n n ---====--∑∑ 残差序列代入上式求的一阶自相关系数0.60966r =再令:**11,,1,...,1i i i i i y y ry x x rx i n ++=-=-=-用EXCEL 完成数据的迭代得到新的数据,这里用Y1代表原先的lnY ,K1代表原先的lnK ,L1代表原先的lnL 。
并导入到SPSS 中,重复以上步骤对新的数据进行回归分析。
得出结果的:数据经过一次迭代以后DW 的值有明显增加,查表k=3,n=20(k 为解释变量的数目,包括常数项,n 是观察值的数目)时,5%的上下界:dL=,dU=。
有d u <DW<4-d U ,认为残差序列间不存在一阶自相关。
此时得到新的回归方程:1 2.2160.61010.9201Y K L =-++6. 残差正态性检验点击“绘制”按钮,将“ZRESID”选入Y轴,“ZPRED”选入X轴,绘制散点图,并在“标准化残差图”中选择“直方图”,输出带有正态曲线的标准化残差的直方图。
点击“保存”按钮,在对话框中保存一些统计量的值,此案例在“预测值”框中选择“未标准化”,在“残差”框中选择“未标准化”,在“预测区间”框中选择“均值”和“单值”。
其他不变,点击【继续】→【确定】。
输出结果如下图:上面操作已输出残差的直方图,还可以通过【分析】→【描述统计】→【P-P 图】和【分析】→【描述统计】→【Q-Q图】输出正态分布的P-P图、Q-Q图,若散点围绕图中所给斜线有规律的分布,则可以认为所检测变量服从正态分布。
P-P图Q-Q图从以上图形可以初步认为该模型的残差服从正态分布。
进一步进行K-S检验。
选择【分析】→【非参数检验】→【旧对话框】→【1-样本 K-S检验】,弹出“单样本Kolmogorov-Smirnov检验”窗口,将未标准化残差选入变量框,K-S检验输出结果K-S检验统计量为,检验概率p值为,大于,可以认为在95%的置信水平下,该模型的残差服从正态分布。
7.残差的其他检验(1)异方差检验:根据回归分析输出的标准化残差的散点图,初步判断是否存在异方差,但此种判断方法较主观,且不容易判断。
进一步用Spearman等级相关检验分析是否存在异方差。
首先对未标准化残差取绝对值,点击【转换】→【计算变量】,弹出“计算变量”窗口,“目标变量”输入“abs”,“数学表达式”输入“abs(RES_1)”,选择【分析】→【相关】→【双变量】,将abs、所有回归变量及未标准化预测值选入变量框中,【相关系数】栏选择“Spearman”,点击确定。
Spearman相关系数表观察系数表的“abs”行,发现未标准化预测值与残差绝对值的相关性p值为大于,说明该模型的残差不存在的异方差问题。
五、实验总结根据上述分析,采用逐步回归法得到最后确定的回归方程:1 2.2160.61010.9201Y K L =-++其中1111ln ln 1ln ln 1ln ln ,1,...,1i ii ii i Y y r y K k r k L l r l i n +++=-=-=-=-代入上式得回归方程为:111ln ln 2.2160.610(ln ln )0.920(ln ln )i i i i i i y r y k r k l l +++-=-+-+-(i=1,2, (21)将上式同时取以e 为底数进行指数变换得到非线性模型中的本质线性关系的方程:2.2161110.6100.920,1,...,20,0.6097i i i r r r i i i y k l e i r y k l -+++⎛⎫⎛⎫=== ⎪⎪⎝⎭⎝⎭根据所建的回归方程可以看出社会固定资产投资(K )和劳动力(L )对GDP 增长的影响较明显,而能源的消费(E)对经济的增长没有明显影响。