当前位置:文档之家› 回归分析课程设计(最终版)

回归分析课程设计(最终版)

回归分析课程设计(题目)(副标题)指导教师学院名称专业名称设计提交日期年月目录1.课程设计简述-------------------------------------------------------22.多元线性回归-------------------------------------------------------33.违背基本假设的情况------------------------------------------------53.1 异方差性-------------------------------------------------------53.2 自相关性-------------------------------------------------------63.3 异常值检验-----------------------------------------------------64.自变量的选择与逐步回归--------------------------------------------74.1 所有子集回归---------------------------------------------------74.2 逐步回归--------------------------------------------------------85.多重共线性的情形及其处理-----------------------------------------105.1 多重共线性诊断------------------------------------------------105.2 消除多重共线性------------------------------------------------116.岭回归--------------------------------------------------------------127.主成分回归----------------------------------------------------------148.含定性变量的回归模型------------------------------------------------9.附录(程序代码)-----------------------------------------------------1.课程设计简述本课程设计的主题是讨论国内生产总值GDP与一些因素,包括进出口额、旅客客运量、第一产业固定投资额、居民消费价格指数等10个因素之间的统计关系。

数据来源是网络数据库—中宏数据库,时间是2008年1月到2012年9月,以季度为时间单位。

变量的定义在表1中给出,变量具体数值在表2给出。

变量定义y GDP/亿元x1 进出口总额/亿美元x2 贸易差额/亿美元x3 实际利用外商直接投资金额/亿美元x4 固定资产投资施工项目个数/百个x5 第一产业固定资产投资/亿元x6 第二产业固定资产投资/亿元x7 第三产业固定资产投资/亿元x8 居民消费价格指数/%x9 商品零售额/亿元x10 人均可支配收入/元表1 各变量定义表2 数据2.多元线性回归利用普通最小二乘法对回归参数进行估计(表3)表3 最小二乘法参数估计结果结果显示大多数参数不通过检验,首先剔除,再对剩余变量进行最小二次法估计。

表4 剔除x4后,最小二乘法参数估计结果可知仍有参数不通过检验,继续剔除。

表5 剔除x7后,最小二乘法参数估计结果同理继续进行剔除-检验步骤,直到参数均通过检验。

过程依次剔除,和(详细过程略),并得到最终估计结果如下表。

表6 最终估计结果剩余参数为常数项、,,,和,均通过显著性检验。

表7 方程拟合优度检验与显著性检验结果决定系数=0.971678,我们认为回归方程非常显著。

F=89.2>F(6,12)=3.00,P值<α=0.05,拒绝原假设,表明回归方程高度显著。

可知方程有效。

得回归方程:下面再利用SAS软件,求出标准化回归方程,输出结果如下表。

表8 标准化回归分析表得标准化回归方程:根据最终方程,我们可以很直观的看出,,,和所对应的因素,即实际利用外商直接投资金额等5个因素对GDP印象不大,而其它各因素对应自变量的系数的正负可以知道该因素对GDP的增长呈正性还是负性影响。

3.违背基本假设情况3.1异方差性绘制残差图Residual300002000010000-10000-20000-3000012345678910111213141516171819t图1 最小二乘残差图从残差图看出,误差项没有呈现任何趋势,也无任何规律,初步判断不存在异方差性。

下面进一步进行怀特检验以及Spearman检验。

表9 怀特检验结果表10 Spearman检验结果表9结果显示P值=0.7213>=0.05,认为不存在异方差;表10结果显示各等级相关系数t检验统计量的P值均大于显著性=0.05。

综上,我们有很大把握认为异方差问题不存在。

3.2自相关性这里使用DW检验对回归方程进行自相关性检验,结果如下。

表11 DW检验结果根据样本量n=19和解释变量k=6,查DW分布表得临界值=0.56,=1.77。

而DW=1.944>,我们可以认为所拟合的回归方程不存在自相关性3.3异常值检验这里通过学生化残差以及库克距离来判断是否存在异常值,SAS计算结果如下。

表12 异常值检验由表知,绝对值最大的学生化残差SRE6=2.600<3,根据学生化残差不存在异常值;最大的库克距离D5最大等于0.914<1,判断结果也不存在异常值。

故认为异常值不存在,即通过检验4.自变量的选择与逐步回归4.1所有子集回归4.1.1 准则通过SAS输出结果表13 最优法结果由输出结果可知,最优子集为,,,,,=0.96084.1.2 准则通过SAS输出结果表14 最优结果由输出结果可知,最优子集为,,,,,=2.2162根据两种准则得到的最优子集回归模型均是,,,,。

4.2 逐步回归4.2.1 前进法利用SAS中FORWARD选项进行前进法过程,由于过程较多,下面整理出前进法过程中的简要步骤。

Step R-Square C(p) Entered1 0.7369 70.6126 x92 0.9070 17.2472 x43 0.9230 14.0549 x84 0.9319 13.1664 x15 0.9457 10.6826 x106 0.9647 6.4951 x57 0.9735 5.6365 x28 0.9747 7.2182 x3最后结果为表15 前进法最终结果结果显示由前进法得到的最优模型为:4.2.2 后退法利用SAS中BACKWARD选项进行前进法过程,下面整理出后退法过程中的简要步骤。

Step R-Square C(p) Removed1 0.9754 9.0105 x42 0.9749 7.1545 x73 0.9746 5.2703 x34 0.9728 3.8405 x65 0.9717 2.2162 x8最后结果为表16 后退法最终结果结果显示由后退法得到的最优模型为:4.2.3 逐步回归法利用SAS中FORWARD选项进行前进法过程,由于过程较多,下面整理出前进法过程中的简要步骤。

Step R-Square C(p) Entered/Removed1 0.7369 70.6126 x9 Entered2 0.9070 17.2472 x4 Entered3 0.9230 14.0549 x8 Entered最后结果为表17 逐步回归法最终结果结果显示由前进法得到的最优模型为:由SAS结果整理出全模型以及以上三种选模型的复决定系数如下表:模型全模型0.9754,,,,,,,0.9747,,,,0.9717,,0.9230三种方法得到的复决定系数均大于0.9,说明模型拟合程度非常高,有非常不错的拟合效果。

5.多重共线性的情形及其处理5.1 多重共线性诊断5.1.1 方差扩大因子法表18 方差扩大因子分析从上表可以看出的方差扩大因子最大为VIF6=879.88018远大于10,而,,,,,的方差扩大因子也均大于10,说明回归方程存在非常严重的多重共线性。

5.1.2 特征根判定法表19 特征根与条件数分析1.特征根分析:从表19可以看到,矩阵X'X有多个特征根接近于零,说明X有多个多重共线性关系。

2.条件数:从条件数看到,最大的条件数=465.82295,说明自变量间存在严重的多重共线性,这与方差扩大因子法的结果一致。

从Proportion of Variation方差比例表可以看到,第11行Intercept、、、、同时较大,说明Intercept、、、、存在多重共线性。

综上,回归方程存在较为严重的多重共线性。

5.2 消除多重共线性从表18中看到,回归系数没有通过显著性检验,应先作自变量的选元,舍去一些变量。

依次把P值最大的自变量剔除,再建立回归方程。

根据多元线性回归方法,依次剔除、、、、,再对剩下变量进行多重共线性诊断。

表20 方差扩大因子分析此时回归方程与回归系数均通过检验,而的方差扩大因子VIF9=27.918>10,故继续剔除,在进行VIF检验。

表21 方差扩大因子分析从上表可以看出剔除后,反而让Intercept、、、系数均变得不显著。

于此,我们不再考虑利用剔除一些不重要的变量来消除共线性,下面考虑使用逐步回归法。

根据表17我们可以直接知道逐步回归的最终剩余变量。

对剩下变量进行方差扩大因子分析如下。

表22方差扩大因子分析由于没有通过显著性检验,进行剔除。

再进行分析:表23方差扩大因子分析得到消除多重共线性之后的回归方程:标准化回归方程:复决定系数为0.9070,调整后的复决定系数为0.8954。

6.岭回归为消除上面回归方程的多重共线性,在这里利用标准化后的数据进行岭回归,以消除多重共线性。

首先绘制岭迹图:y = -0.4165x1 +0.2764x2 +0.0545x3 -0.0219x4 -0.5279x5 -0.7291x6 +0.2518x7 +0.2786x8 +3.059x9 -1.5065x10N 19 Rsq 0.9754AdjRsq 0.9481RMSE 0.2217-0.4-0.3-0.2-0.10.00.10.20.30.4Ridge k0.10.20.30.40.50.60.70.80.91.0Plotx1x2x3x4x5x6x7x8x9x10图2-的岭迹图根据岭回归选择变量原则:剔除标准岭回归系数比较稳定且决定值很小的自变量;剔除标准化岭回归系数不稳定,震动趋向于零的自变量;剔除标准化岭回归系数很不稳定的自变量,我们首先剔除,再绘制岭迹图:y = -0.4105x1 +0.0872x3 -0.2919x4 -0.6551x5 +0.2562x6 +0.1266x7 +0.249x8 +1.796x9 -0.6763x10N 19 Rsq 0.9670AdjRsq 0.9373RMSE 0.2438-0.4-0.3-0.2-0.10.00.10.20.30.40.5Ridge k0.10.20.30.40.50.60.70.80.91.0Plotx1x3x4x5x6x7x8x9x10图3 剔除后的岭迹图同理,我们依次剔除、(岭迹图略)。

相关主题