当前位置:文档之家› 中国民航客运量的回归模型(1)

中国民航客运量的回归模型(1)

回归分析论文题目:中国民航客运量的回归模型我国民航客运量的变化趋势及其成因摘要改革开放以来,中国的经济飞速发展,人民的生活水平也发生了很大的变化;民航一直是交通运输中的一种不可少的方式,一定程度上也反映了人民的生活水平的提高,为了对民航客运量做出准确地评估和预测,本文利用多元线性回归分析方法研究我国民航客运量的变化趋势及其成因,数据来自《中国统计年鉴》(1981—2010年民航客运量),利用spss软件对数据进行处理和分析.关键词多元线性回归分析、回归方程、显著性检验、相关性、民航客运量一、模型的建立与分析(一)研究我国1981年至2010年民航客运量与各影响因素之间的关系1)数据来源:《中国统计年鉴》(1981—2010年民航客运量)如下表1表1.我国民航客运量与影响因素2)研究方法:建立y 与自变量53412,,,,x x x x x 的多元线性回归模型如下:10122334455y=+ββχ+βχ+βχ+βχ+βχ+ε其中 E(ε)=0 var (ε)=2σ3)实证分析:(1)对收集数据作相关分析,用spss 软件计算增广相关矩阵,输出结果如下表2.相关性从相关矩阵看出,y 与1x ,2x ,4x ,5x 的相关系数都在0.9以上,说明所选自变量与y 高度线性相关的,用y 与自变量做多元线性回归是合适的。

y 与3x 的相关系数3y r =0.809,p 值=0,这说明铁路客运量对民航客运量影响较弱。

一般认为铁路客运量与民航客运量之间呈负相关,铁路与民航共同拥有旅客,乘了火车就乘 不了飞机。

但就中国的实际情况分析我国居民收入普遍不高,一般外出、旅游乘火车的比较多,而且随着我国铁路建设越来越普遍,乘坐火车外出的人也越来y 民航客运总量(万人) x1GDP(万元)x2居民消费(万元) x3铁路客运量(千人)x4民航航线里程(万公里) x5来华旅游入境人数(万人) Pearson 相关性y 民航客运总量(万人) 1.000 .996 .994 .809 .936 .932 x1GDP (万元) .996 1.000 .995 .820 .929 .922 x2居民消费(万元) .994 .995 1.000 .784 .950 .937 x3铁路客运量(千人) .809 .820 .784 1.000 .597 .622 x4民航航线里程(万公里) .936 .929 .950 .597 1.000 .978 x5来华旅游入境人数(万人).932 .922 .937 .622 .978 1.000 Sig. (单侧)y 民航客运总量(万人) . .000 .000 .000 .000 .000 x1GDP (万元) .000 . .000 .000 .000 .000 x2居民消费(万元) .000 .000 . .000 .000 .000 x3铁路客运量(千人) .000 .000 .000 . .000 .000 x4民航航线里程(万公里) .000 .000 .000 .000 . .000 x5来华旅游入境人数(万人).000.000.000.000.000.愈多。

但是仅凭相关系数的大小是不能决定变量的取舍的,在初步建模时还是应该包含3x 的。

(2)对数据进行线性回归分析得出以下各表拟合优度用于描述回归方程对样本观测值的拟合程度,样本决定系数2R 的取值在[0,1]区间内,2R 越接近1,表明回归拟合的效果越好;2R 越接近0,表明回归拟合的效果差。

在实际应用中,人们用复相关系数R 来表示回归方程对原始数据拟合程度的的好坏,它衡量作为一个整体的12,,......,p x x x 与y 的线性关系的大小,由表3可以看出样本决定系数20.994R =,复相关系数0.997R =,则表明回归方程对样本观测值的拟合程度较高,整体的12,,......,p x x x 与y 的线性相关性较高。

再由表4可以看出:F=793.051,P 值=0.000,表明回归方程高度显著,说明53412,,,,x x x x x 整体上对y 有高度显著的线性影响可得回归方程为12345ˆ1579.8490.0520.0140.015 3.564+0.134yx x x x x =-++++从表5中可以看出并不是所有的自变量x 单独对y 都有显著影响,最大的p 值为2p =0.756远大于0.05,没有通过回归系数的显著性检验,这说明尽管回归方程通过了显著性检验,但也会出现某些单个自变量x (甚至于每个x )对y 并不显著的情况。

(3)由于某些单个自变量不显著,因而在多元回归中并不是包含在回归方程中的自变量越多越好,为了解决这个问题我们可以采取一种简单的剔除多余变量的方法:“后退法”得以下各表由表6可以看出:用“后退法”进行分析其各个回归方程模型对样本观测值的拟合程度,回归方程均通过了显著性检验。

由表7可知1F =793.051 2F =1028.372 3F =1407.901 4F =2159.2001P = 2P =3P = 4P =0.000表明在利用“后退法”进行分析得到的四个回归方程高度显著。

利用“后退法”首先剔除x2,得到回归模型2:1345ˆ1579.4840.0560.015 5.320+0.124yx x x x =-+++,其中4P =0.577>0.05,回归方程系数未通过检验,再剔除x4得回归模型3135ˆ837.4170.0590.009+0.180yx x x =-++,其中3P =0.530>0.05 回归方程系数未通过检验,再剔除x3得回归模型415ˆ90.1590.061+0.147yx x =+ 1P =0.000 5P =0.036 均小于0.05 回归方程系数通过检验通过以上的方法我们最终得到因变量y 与x1和x5保持着高度线性相关性,但在实际应用时,为了模型的结构合理,我们有时也保留个别对y 影响不大的变量,这种情况尤其是在建立宏观经济模型时常常如此。

(4)作散点图如下图9图9 .民航客运量随年份变化趋势图由该散点图可以看出,从1981年至1990年我国的民航客运量变化的幅度较小,1990年至2010年变化幅度较大,为了使所建的模型能对未来的情况进行预测,我把收集到的数据分成了两部分进行讨论:一部分是从1981年至1990年的数据,另一部分是1991年至2010年的数据。

(二)对1981年至1990年我国民航客运量与各影响因之间的关系进行分析表10.1981年至1990年我国民航客运量与各影响因之间数据表1)对该表的数据用spss 进行分析,得y 与自变量53412,,,,x x x x x 相关性如表表11.相关性y x1 x2 x3 x4 x5 Pearson 相关性y 1.000 .962 .957 .332 .945 .960 x1 .962 1.000 .999 .307 .979 .896 x2 .957 .999 1.000 .320 .975 .895 x3 .332 .307 .320 1.000 .195 .551 x4 .945 .979 .975 .195 1.000 .847 x5.960 .896 .895 .551 .847 1.000 Sig. (单侧) y . .000 .000 .174 .000 .000 x1 .000 . .000 .194 .000 .000 x2 .000 .000 . .183 .000 .000 x3 .174 .194 .183 . .295 .050 x4 .000 .000 .000 .295 . .001 x5.000.000.000.050.001.从相关矩阵看出,y 与1x ,2x ,4x ,5x 的相关系数都在0.9以上,说明所选自变量与y 高度线性相关的,用y 与自变量做多元线性回归是合适的。

y 与3x 的相关系数3y r =0.332 ,p 值=0,这说明铁路客运量对民航客运量影响较弱,就中国的实际情况分析我国居民收入普遍不高,一般外出、旅游乘火车的比较多,因此影响较弱。

2)对数据进行线性回归分析得出以下各表由表12可以看出样本决定系数20.994R =,复相关系数0.997R =,则表明回归方程对样本观测值的拟合程度较高,整体的34512,,,,x x x x x 与y 的线性相关性较高。

再由表13可以看出:F=143.806,P 值=0.000,表明回归方程高度显著,说明53412,,,,x x x x x 整体上对y 有高度显著的线性影响表14.系数a模型 非标准化系数标准系数 t Sig.B 标准 误差试用版1(常量) 742.011 396.7411.870.135 x1 -.058 .189 -.606 -.307 .774 x2 .126 .336 .662 .375 .727 x3 -.010 .004 -.182 -2.663 .056 x4 11.630 11.994 .252 .970 .387 x5.426.074.7985.757.0053)直方图:(三)对1991年至2010年我国民航客运量与各影响因之间的关系进行分析表15.1991年至2010年我国民航客运量与各影响因之间数据表1)做散点图:2)曲线估计:由上图可知,民航客运量y 随年份变化的情况用指数分布模型更适合。

3)对表15的数据用spss 进行分析,得y 与自变量53412,,,,x x x x x 相关性如表表16.相关性yx1 x2 x3 x4 x5 Pearson 相关性y 1.000 .995 .990 .947 .944 .908 x1 .995 1.000 .995 .945 .947 .904 x2 .990 .995 1.000 .928 .958 .908 x3 .947 .945 .928 1.000 .827 .777 x4 .944 .947 .958 .827 1.000 .962 x5.908 .904 .908 .777 .962 1.000 Sig. (单侧) y . .000 .000 .000 .000 .000 x1 .000 . .000 .000 .000 .000 x2 .000 .000 . .000 .000 .000 x3 .000 .000 .000 . .000 .000 x4 .000 .000 .000 .000 . .000 x5.000.000.000.000.000.由表16可得y 与自变量53412,,,,x x x x x 的相关系数都在0.9以上,说明y 与自变量53412,,,,x x x x x 之间高度相关;由表17可以看出样本决定系数20.992R =,复相关系数0.996R =,则表明回归方程对样本观测值的拟合程度较高,整体的34512,,,,x x x x x 与y 的线性相关性较高;再由表18可以看出:F=351.339,P 值=0.000,表明回归方程高度显著,说明53412,,,,x x x x x 整体上对y 有高度显著的线性影响,,但是仅凭相关系数的大小是不能决定变量的取舍的。

相关主题