当前位置:文档之家› 回归分析课程设计

回归分析课程设计

应用回归分析课程设计指导书一、课程设计的目的(1)巩固应用回归分析的理论知识,掌握其思想精髓;(2)运用回归分析研究方法,加强解决实际问题的能力;( 3)熟练使用spss 软件对数据进行回归分析。

二、设计名称:研究货运总量y (万吨)与工业总产值x1 (亿元)、农业总产值x2(亿元)、居民非商品支出x3 (亿元)的关系三、设计要求(1)正确运用spss软件对数据进行处理(2)正确分析数据,尝试选择不同的模型拟合数据( 3)课程设计中,遇到问题要翻阅课本去努力解决问题(4)要有耐心,对于模型的显著性和回归系数都要进行检验( 5 )认真并独立完成四、设计过程(1)思考课程设计的目的,寻找来源真实的数据( 2)上网搜集并整理数据资料( 3)根据数据确定研究对象( 4)应用统计软件来处理数据信息( 5 )选择通过各种检验的线性模型(6)写出相应的实验报告,并对结果进行分析五、设计细则( 1 )搜集数据阶段,数据不能过于繁杂,也不能太少;(2)做课程设计前,认真看书和笔记,及平时的实验报告,掌握丰富的理论;( 3)有耐心,不紧不慢;要细心,一丝不苟;( 4)写报告书时,语言简洁易懂又不失完整,尤其操作过程要正确完整,要清楚明了。

分析结果要正确与实际问题背景相符。

六、说明(1)书写报告时,有些特殊的数学符号需要利用Mathtype (公式编辑器)这款小软件进行编辑;(2)有些spss输出表格不整齐,需要导出在Excel中,然后在复制到word文档里;( 3) 认真仔细的完成课程设计课程设计任务书设计名称:研究货运总量y (万吨)与工业总产值x1 (亿元)、农业总产值x2(亿元)、居民非商品支出x3 (亿元)的关系日期:2011年11月13日(1)设计内容:研究货运总量y (万吨)与工业总产值x1 (亿元)、农业总产值)x3 数据见表如下:x2(2)求y关于x1,x2,x3的三元线性回归方程;(3)对所求的得方程做拟合优度检验;(4)对回归方程做显著性检验;(5)对每一个回归系数做显著性检验;(6)如果有的回归系数没有通过显著性检验,将其剔除,重新建立回归方程,再作回归方程的显著性检验和回归系数的显著性检验;(7)求出每一个回归系数的置信水平为95%的置信区间;8)求标准化方程;设计目的与要求:目的:(1)巩固课本上学到的知识,提高处理实际问题的能力;(2)掌握对多元线性回归问题的模型选择;(3)对软件输出的结果要学会分析要求:(1)熟练使用SPSS软件对回归数据进行模型拟合;(2)认真独立完成设计环境或器材、原理与说明:设计环境和器材:计算机,Mini tab软件,课本,笔记设计原理与说明:(1)多元回归分析中,检验回归系数是否为0的时候,先用F检验,考虑整体回归系数,再对每个系数是否为零进行t检验(2)t检验:原假设:H0: j 0, j 1,2,..., pA统计量:t j———A ( 1 n; 1 n A其中 ---------- e2j -------------------- (y i yj2为回归标准差\ n p i i Y n p 1 i i当原假设H oj:j 0成立时,构造的t j统计量服从自由度为n-p-1的t 分布。

给定显著性水平,查出双侧检验的临界值t 2。

当t』t 2时拒绝原假设H oj : j0,认为j显著不为零。

自变量X j是对y的线性效果是显著的;当t j t ;时接受原假设H oj:j 0,认为j显著为零。

自变量X j是对y的线性效果不显著的(3)F检验对线性回归方程显著性的另一种检验是F检验,F检验是根据平方和分解式, 直接从回归效果检验方程的显著性。

平方和分解式是n(Y i i 1 y)2nA n(y i y)2(y ii 1 i 1Ay i)2其中,n(y ii 1y)2称为总平方和,简记为sst 或L yy ,SST表示Sumof SquaresforTotal 。

n A(y i y)2称为回归平方和,简记为SSR或S回,R表示Regressioni 1n A(y i y i)2称为残差平方和,简记为SSE或S残,E表示Error i 1 因此平方和分解式可以简记为SST=SSR+SSE原假设:H 0 : 1 2... p 0统计量:F —SSE/( n p 1)当原假设H。

成立时,构造的F统计量服从自由度为(p,n-p-1 )的F分布。

给定显著性水平。

当F值大于临界值F (p, n p 1)时,拒绝原假设H o,认为回归方程显著。

方差分析表(4)拟合优度拟合优度用于检验回归方程对样本观测值的拟合优度。

在多元线性回归中,决定系数为R2-SSR 1 -SSESST SST样本决定系数R2的取值在0,1区间内,R2越近1,表明回归拟合的效果越好;R2越接近0,表明回归拟合的效果越差。

与F检验相比,R2可以清楚直观的反应回归拟合的效果,但是并不能作为严格的显著性检验。

5)复相关系数称R VR7\SST为y关于x1,x2,...,x p的样本复相关系数。

在两个变量的简单相关系数中,相关系数没有正负之分,而复相关系数表示的是因变量y对全体自变量之间的线性关系,它的符号不能由某一个自变量的回归系数的符号来确定,因而复相关系数都取正号。

6)多重共线性多元线性回归方程模型中有一个基本假设,就是要求设计矩阵X的秩rank (X)=p+1,即要求X中的列向量之间线性无关,如果存在不全为0的P+1个数C0,c1,…,C p,使得c0 c1x i1 c2x i 2 ■■- C p X jp 0,i 1,2,…,n则自变量x1,x2,...,x p之间存在着多重共线性。

多重共线性的诊断:(方差扩大因子法)对自变量做中心标准化,则X X(r ij)为自变量的相关阵。

记C (q) (X*X*) 1称其主对角线元素VIF j 5为自变量X j的方差扩大因子(varianee inflation factor ,VIF)。

当VIF j 10.就说明自变量百与其他自变量之间有严重的多重共线性,且这种多重共线性可能会过度的影响最小二乘估计值。

设计过程(步骤)或程序代码:(1)打开SPSS软件,导出数据(2)分析一相关一双变量相关一变量:y,x1,x2,x3—确定(3)分析一回归一线性回归(因变量:y;自变量:x1,x2,x3)—确定(4)分析一相关一双变量相关一变量:y,x1,x2—确定(5)分析一回归一线性回归(因变量:y;自变量:x1,x2)—确定⑹分析---回归---线性回归(因变量:y ;自变量:x1,x2,x3;统计量:选中共线性诊断;继续)----确定⑺分析---回归---线性回归(因变量:y;自变量:x1,x2, x3;保存:预测值:未标准化;残差:未标准化;预测区间:均值,置信水平为95%继续)----确定设计结果与分析(可以加页):(2)(3)a.a.:(),x3, x1, x2复相关系数R=0.898,决定系数R2=0.806,由决定系数看回归方程高度显著。

a.预测变量:(常量),x3, x1, x2b.因变量:y由方差分析表可以知道,F=8.283, P值=0.015,表明回归方程高度显著,说明x1,x2,x3整体上对y有显著的线性影响。

a. :y1.回归方程为:y 348.280 3.754为7.101x2 12.447x32.回归系数的显著性检验:自变量x2对y有影响,其中x3的P值=0.284。

因此,这个模型通过了显著性检验但没有通过回归系数的检验,自变量x3对因变量y不显著,所以下一步要剔除不显著的回归系数x3,重新建立回归模型.(4)*.0.05(5)a.a.:(),x2, x1Anova ba.预测变量:(常量),x2, x1b.因变量:ya. 因变量:y实验分析:1.复相关系数R=0.872,决定系数R2=0.761 ,由决定系数看回归方程高度显著。

2.由方差分析表可以知道,F=11.117, P值=0.007,表明回归方程高度显著,说明x1,x2整体上对y有显著的线性影响。

3.回归系数的显著性检验,自变量x1,x2对y有影响,其中x1的P值=0.037 最大。

4.标准化回归方程为:y 459.624 4.676x18.971x2综上所诉,这个回归模型即通过了方程显著性检验,也通过了回归系数显著行检验,所以次模型是有效的(6)a. :y从上图可知,次模型中,自变量自变量x1,x2,x3的多重共线性的VIF统计量的值都很小,小于10,说明建立的回归模型不存在多重共线性问题。

a. 因变量:y由上表可知,标准化和学生化的残差绝对值都下于3,证明此模型中不存在异常值Hl Ki I I II 1X0CI **1®• K凹HP DA匕换n g■智「也TB洌下限预河上IP 116BIXI7D.D035 OD 1.0D T75.J374B1-15.474A1135.6131?214.131522^£IL£I?^.ao ZJD W.I75C112.E24J&9275.2 9Q24 3ZTOiXI E5 DO4DOD?.0D辺4首旺旨 5.34434175.3^325233.94FD54266.007-4.0042X03XJD忑丸戎旧23丽品29D.7D121&72IQQ39 GO 1.2Q30凤77即3372549172,叭Q24D.fiSJ|42 &230CO G&QO阪他 1.5D2^15.15759^25.19759195.792222S4.6J2951276 00?8.Q01(1Q妙2石172AB.3213■3SE71E37 160 006B.ao3&.Q0Z0D160.00664-2D.CD6E421B.8K1D 3巧0070 00aOfi3i?D7B565■i呼百237J122Q3E.31911ID25DOO ESJQU420030Q331.30«-5I0 69&S5133.301269.30219上表是列出了模型的残差,预测值和预测的置信区间设计体会与建议:通过课程设计,使我深深体会到,干任何事都必须耐心,细致•课程设计过程中,许多计算有时不免令我感到有些心烦意乱:有几次因为不完全理解,只能重来.说实话,课程设计真的有点累.然而,当我一着手清理自己的设计成果,漫漫回味这两周的心路历程,一种少有的成功喜悦即刻使倦意顿消。

短短两周的课程设计,使我发现了自己所掌握的知识是真正如此的缺乏,自己综合应用所学的专业知识能力是如此的不足,几年来的学习了那么多的课程,今天才知道自己并不会用•经过这次的回归分析的课程设计,我个人也得到了不少的收获,一方面加深了我对课本理论的知识,另一方面也提高了实验操作能力。

相关主题