当前位置:文档之家› 应用回归分析论文

应用回归分析论文

浙江财经学院东方学院《应用回归分析》课程论文论文题目:我国民航客运量的因素分析学生姓名徐妙学期 2012-2013学年第一学期分院信息专业统计学班级10统计1班学号 1020430112教师彭武珍成绩2013年 1 月 1 日我国民航客运量的因素分析摘要:随着人们生活水平的提高,对交通工具的选择也逐渐发生变化。

从最开始单调的汽车、轮船,到现在的动车、火车、飞机、地铁,存在多种选择,在与家人出门游玩时也更加方便。

在此主要研究民航的客运量,从过去到现在他的发展趋势如何,主要存在哪些客观因素对他造成影响,今后的预测走势又如何等一系列问题将一一分析。

其中所用数据均来自《中华人民共和国统计年鉴》,所做的检验结果均由统计软件spss17.0提供。

关键字:回归、相关性、显著性、检验。

1引言伴随着经济的发展,人们的生活水平也随之增加了,同时带来了消费水平和消费观念的改变;与此同时也促进了经济的增加。

为了研究我国民航客运量的变化趋势及其成因,我们以民航客运量作为因变量y ,以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。

y 表示民航客运量(万人),x1表示国民收入(亿元),x2表示消费额(亿元),x3表示民航航线里程(万公里),x4来华旅游入境人数(万人)。

我们可以对此作一些猜测:我国民航客运量可能随着国民收入的增加而增加,随着铁路客运量的增加而减少,随着民航航线里程的增加而增加,随着来华旅游入境人数的增加而增加。

根据《中华人民共和国年鉴》获得1978—2005年的统计数据(见附录)。

利用spss17.0软件通过建立回归模型分析我国民航客运量主要受到哪些因素的影响,通过回归模型的建立反映我国经济水平发生的变化。

2预备知识2.1多元线性回归模型2.1.1多元线性回归模型的一般形式 设随机变量y 与一般变量px x x ,...,,21的线性回归模型为εββββ+++++=p p x x x y ...22110,其中:p 为解释变量的数目,0β为回归常数,p ββ...,1称为回归系数,ε是随机误差。

2.2多元线性回归参数的估计2.2.1回归参数的普通最小二乘估计所谓最小二乘法,就是寻找参数p βββ,...,,10的估计值p βββˆ,....,ˆ,ˆ10,使离差平方和()(2110110)....,...,,ip p i ni i p x x y Q ββββββ----=∑=达到极小。

2.3多元线性回归分析的检验2.3.1方差分析方差分析是对整个方程的显著性检验。

检验假设:总体的回归系数为0或不都为非0.使用统计量F 进行检验:检验的零假设为:0...:100====p H βββ 检验统计量:F=)1/(/--p n SSE pSSR 它服从于自由度为(p ,n-p-1)的F 分布。

若F 大于临界值,则拒绝零假设,认为在显著水平下,y 对自变量有显著的线性关系,回归方程是显著的;反之则不能拒绝原假设,认为回归方程是不显著的。

2.4共线性问题回归方程中,各自变量对因变量虽然都是有意义的,但某些自变量彼此相关,即存在共线性的问题。

此时给评价自变量的贡献率带来困难。

因此,需要对回归方程中的变量进行共线性诊断,并且确定它们对参数估计的影响。

2.5自相关性的问题(1)参数的估计值不再具有最小方差线性无偏性; (2)均方误差可能严重低估误差项的方差;(3)容易导致对t 值评价过高,常用的F 检验和t 检验失效。

如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论;(4)当存在序列相关时,βˆ仍然是β的无偏估计,但是在任一特定的样本中,βˆ可能严重歪曲β的真实情况,即最小二乘估计量对抽样波动变得非常敏感; (5)如果不加以处理地运用普通最小二乘法估计模型能够参数,用此模型进行预测和结构分析将会带来较大的方差甚至错误的解释。

自相关的检验方法:D-W 检验:在对回归模型诊断中,需要诊断回归模型中误差项的独立性。

如果误差项不成立,那么对回归模型的任何估计与假设所作出的结论是不可靠的。

3模型的建立和分析3.1绘制散点图图1 时间与y、x1、x2、x3、x4之间的散点图由时间与y、x1、x2、x3、x4之间的散点图可以看出四个自变量都呈现明显的线性相关,都随着时间的增长而增长。

3.2简单相关系数表1spss 相关分析结果从相关阵看出,y 与x1,x2,x3,x4的相关系数都在0.9以上,说明所选的自变量与y 具有高度相关性,用y 与自变量作多元线性回归是非常合适的。

3.3多元线性回归分析表2用spss 软件对原始数据作回归分析输出结果模型汇总b模型 R R 方 调整 R 方标准 估计的误差 Durbin-Watson1.993a.986 .984420.0731.889a. 预测变量: (常量), x4, x2, x3, x1。

b. 因变量: yAnova b模型平方和df 均方 F Sig.1 回归 2.757E8 4 6.891E7 390.525 .000a残差3882149.925 22 176461.360总计 2.795E8 26系数a模型非标准化系数标准系数t Sig.B 标准误差试用版1 (常量) -56.288 200.864 -.280 .782x1 .102 .018 1.456 5.683 .000x2 -2.806 .908 -1.267 -3.092 .005x3 30.802 9.980 .518 3.086 .005x4 .328 .134 .302 2.454 .022a. 因变量: y由回归分析得:(1)回归方程:y=—56.288+0.102x1—2.806x2—30.802x3+0.328x4(2)决定系数由决定系数R方=0.989看回归方程高度显著,回归方程的拟合效果很好。

(3)回归系数的显著性检验(t检验)回归系数的显著性检验Sig.一列看出自变量的回归系数都通过t检验(即收尾概率小于规定的显著水平0.05),说明5个自变量对y的影响显著。

(4)回归方程的显著性检验(F检验)F值等于514.829,说明方程通过F检验。

(5)检验残差序列的自相关(D-W检验)D-W=1.899,查表后由于DW值很接近2,所以可以判断模型不具有自相关性。

(6)回归系数x2的回归系数:—2.806是负的,x2是消费额,负的显然不合理,其原因可能是自变量之间的共线性,因而回归方程还要在多重共线性部分进行修改3.4模型异方差检验图2 年份-残差分布图从散点图看,既无明显的喇叭形分布,分布似乎又有点随机,那么我们需要运用更精确的方法进一步分析。

利用spss进行等级相关系数法即斯皮尔曼检验对每个自变量的等级相关系数与残差等级相关系数进行分析,得到如下结果。

表3spss斯皮尔曼检验最显著结果相关系数eidj x1djSpearman 的 rho eidj 相关系数 1.000 .674**Sig.(双侧). .000N 28 28x1dj 相关系数.674** 1.000Sig.(双侧).000 .N 28 28相关系数eidj x1djSpearman 的 rho eidj 相关系数 1.000 .674**Sig.(双侧). .000N 28 28x1dj 相关系数.674** 1.000Sig.(双侧).000 .N 28 28**. 在置信度(双测)为 0.01 时,相关性是显著的。

说明x1的相关性比较显著,所以我们用x1作为权重,对各个自变量作回归分析。

表4spss以x1作为权重作权重估计结果系数未标准化系数标准化系数B 标准误试用版标准误t Sig.(常数)638.507 143.397 4.453 .000x1 .023 .005 .234 .047 4.968 .000x2 -.010 .002 -.219 .034 -6.476 .000x3 19.892 2.860 .452 .065 6.954 .000x4 .294 .040 .474 .064 7.394 .000从结果看全部通过t检验,说明异方差消除,得到y与x的回归方程为:y=638.507+0.023x1—0.01x2+19.892x3+0.294x43.5多重共线性分析表5spss共线性诊断系数a模型非标准化系数标准系数t Sig.共线性统计量B 标准误差试用版容差VIF1 (常量) -56.288 200.864 -.280 .782x1 .102 .018 1.456 5.683 .000 .007 136.638 x2 -2.806 .908 -1.267 -3.092 .005 .003 349.652 x3 30.802 9.980 .518 3.086 .005 .017 58.759 x4 .328 .134 .302 2.454 .022 .032 31.482 a. 因变量: y可以看出个变量的方差扩大因子VIF,显然,变量都与别的变量存在程度不同的共线性,其中x2的共线性最严重。

3.6消除多重共线性当回归自变量之间的相关程度越高,多重共线性就越严重,那么回归系数的估计值方差就越大,回归系数的置信区间就变得很宽,估计得精确性就大幅度的降低,使估计值稳定性变得很差,进一步致使在回归方程整体高度显著时,一些回归系数则通不过显著性检验,回归系数的正负号也可能出现倒置,使得无法对回归方程得到合理的解释,直接影响到最小二乘法的应用效果,降低回归方程的应用价值,所以我们多多重相关性检验就是为了剔除一些不重要的解释变量。

表6spss作共线性诊断初步结果系数a模型非标准化系数标准系数t Sig.共线性统计量B 标准误差试用版容差VIF1 (常量) -56.288 200.864 -.280 .782x1 .102 .018 1.456 5.683 .000 .007 136.638 x2 -2.806 .908 -1.267 -3.092 .005 .003 349.652 x3 30.802 9.980 .518 3.086 .005 .017 58.759 x4 .328 .134 .302 2.454 .022 .032 31.482 a. 因变量: y由结果可得x2的方差扩大因子VIF最大,所以应该剔除,留下x1,x3,x4再作一次回归分析。

表7spss剔除再作回归分析结果系数a模型非标准化系数标准系数t Sig.共线性统计量B 标准误差试用版容差VIF1 (常量) 21.184 232.134 .091 .928x1 .051 .008 .731 6.069 .000 .045 2.272 x3 5.257 6.521 .088 .806 .428 .054 8.491 x4 .194 .147 .179 1.319 .200 .035 8.188 a. 因变量: y由结果可得x1,x3,x4的VIF均小于10,多重共线性已经消除,所以我们可以得回归方程:y=21.184+0.051x1+5.257x3+0.194x43.7逐步回归分析表8spss逐步回归分析结果模型汇总模型R R 方调整 R 方标准估计的误差1 .991a.981 .980 526.0432 .991b.981 .980 533.4953 .992c.984 .982 498.883a. 预测变量: (常量), x1。

相关主题