回归分析论文题目:中国民航客运量的回归模型
我国民航客运量的变化趋势及其成因
摘要
改革开放以来,中国的经济飞速发展,人民的生活水平也发生了很大的变化;民航一直是交通运输中的一种不可少的方式,一定程度上也反映了人民的生活水平的提高,为了对民航客运量做出准确地评估和预测,本文利用多元线性回归分析方法研究我国民航客运量的变化趋势及其成因,数据来自《中国统计年鉴》(1981—2010年民航客运量),利用spss软件对数据进行处理和分析.
关键词
多元线性回归分析、回归方程、显著性检验、相关性、民航客运量
一、模型的建立与分析
(一)研究我国1981年至2010年民航客运量与各影响因素之间的关系
1)数据来源:《中国统计年鉴》(1981—2010年民航客运量)如下表1
表1.我国民航客运量与影响因素
2)研究方法:
建立y 与自变量53412,,,,x x x x x 的多元线性回归模型如下:
10122334455y=+ββχ+βχ+βχ+βχ+βχ+ε
其中 E(ε)=0 var (ε)=2σ
3)实证分析:
(1)对收集数据作相关分析,用spss 软件计算增广相关矩阵,输出结果如下
表2.相关性
从相关矩阵看出,y 与1x ,2x ,4x ,5x 的相关系数都在0.9以上,说明所选自变量与y 高度线性相关的,用y 与自变量做多元线性回归是合适的。
y 与3x 的相关系数
3y r =0.809,p 值=0,这说明铁路客运量对民航客运量影响较弱。
一般认为铁路
客运量与民航客运量之间呈负相关,铁路与民航共同拥有旅客,乘了火车就乘 不了飞机。
但就中国的实际情况分析我国居民收入普遍不高,一般外出、旅游乘火车的比较多,而且随着我国铁路建设越来越普遍,乘坐火车外出的人也越来
愈多。
但是仅凭相关系数的大小是不能决定变量的取舍的,在初步建模时还是应该包含3x 的。
(2)对数据进行线性回归分析得出以下各表
拟合优度用于描述回归方程对样本观测值的拟合程度,样本决定系数2R 的取值在[0,1]区间内,2R 越接近1,表明回归拟合的效果越好;2R 越接近0,表明回归拟合的效果差。
在实际应用中,人们用复相关系数R 来表示回归方程对原始数据拟合程度的的好坏,它衡量作为一个整体的12,,......,p x x x 与y 的线性关系的大小,由表3可以看出样本决定系数20.994R =,复相关系数0.997R =,则表明回归方程对样本观测值的拟合程度较高,整体的12,,......,p x x x 与y 的线性相关性较高。
再由表4可以看出:F=793.051,P 值=0.000,表明回归方程高度显著,说明
53412,,,,x x x x x 整体上对y 有高度显著的线性影响
可得回归方程为
12345ˆ1579.8490.0520.0140.015 3.564+0.134y
x x x x x =-++++
从表5中可以看出并不是所有的自变量x 单独对y 都有显著影响,最大的p 值为
2p =0.756远大于0.05,没有通过回归系数的显著性检验,这说明尽管回归方程
通过了显著性检验,但也会出现某些单个自变量x (甚至于每个x )对y 并不显著的情况。
(3)由于某些单个自变量不显著,因而在多元回归中并不是包含在回归方程中的自变量越多越好,为了解决这个问题我们可以采取一种简单的剔除多余变量的方法:“后退法”得以下各表
由表6可以看出:用“后退法”进行分析其各个回归方程模型对样本观测值的拟合程度,回归方程均通过了显著性检验。
由表7可知1F =793.051 2F =1028.372 3F =1407.901 4F =2159.200 1P = 2P
=3P = 4P =0.000
表明在利用“后退法”进行分析得到的四个回归方程高度显著。
利用“后退法”首先剔除x2,得到回归模型2:
1345ˆ1579.4840.0560.015 5.320+0.124y
x x x x =-+++,其中4P =0.577>0.05,回归方程系数未通过检验,再剔除x4得回归模型3
135ˆ837.4170.0590.009+0.180y
x x x =-++,其中3P =0.530>0.05 回归方程系数未通过检验,再剔除x3得回归模型4
15ˆ90.1590.061+0.147y
x x =+ 1P =0.000 5P =0.036 均小于0.05 回归方程系数通过检验
通过以上的方法我们最终得到因变量y 与x1和x5保持着高度线性相关性,但在实际应用时,为了模型的结构合理,我们有时也保留个别对y 影响不大的变量,这种情况尤其是在建立宏观经济模型时常常如此。
(4)作散点图如下图9
图9 .民航客运量随年份变化趋势图
由该散点图可以看出,从1981年至1990年我国的民航客运量变化的幅度较小,1990年至2010年变化幅度较大,为了使所建的模型能对未来的情况进行预测,我把收集到的数据分成了两部分进行讨论:一部分是从1981年至1990年的数据,另一部分是1991年至2010年的数据。
(二)对1981年至1990年我国民航客运量与各影响因之间的关系进行分析
表10.1981年至1990年我国民航客运量与各影响因之间数据表
1)对该表的数据用spss 进行分析,得y 与自变量53412,,,,x x x x x 相关性如表
从相关矩阵看出,y 与1x ,2x ,4x ,5x 的相关系数都在0.9以上,说明所选自变量与y 高度线性相关的,用y 与自变量做多元线性回归是合适的。
y 与3x 的相关系数
3y r =0.332 ,p 值=0,这说明铁路客运量对民航客运量影响较弱,就中国的实际
情况分析我国居民收入普遍不高,一般外出、旅游乘火车的比较多,因此影响较弱。
2)对数据进行线性回归分析得出以下各表
由表12可以看出样本决定系数20.994R =,复相关系数0.997R =,则表明回归方程对样本观测值的拟合程度较高,整体的34512,,,,x x x x x 与y 的线性相关性较高。
再由表13可以看出:F=143.806,P 值=0.000,表明回归方程高度显著,说明
53412,,,,x x x x x 整体上对y 有高度显著的线性影响
3)直方图:
(三)对1991年至2010年我国民航客运量与各影响因之间的关系进行分析表15.1991年至2010年我国民航客运量与各影响因之间数据表
1)做散点图:
2)曲线估计:
由上图可知,民航客运量y随年份变化的情况用指数分布模型更适合。
3)对表15的数据用spss 进行分析,得y 与自变量53412,,,,x x x x x 相关性如表
由表16可得y 与自变量53412,,,,x x x x x 的相关系数都在0.9以上,说明y 与自变量53412,,,,x x x x x 之间高度相关;由表17可以看出样本决定系数20.992R =,复相关系数0.996R =,则表明回归方程对样本观测值的拟合程度较高,整体的34512,,,,x x x x x 与y 的线性相关性较高;再由表18可以看出:F=351.339,P 值=0.000,表明回归方程高度显著,说明53412,,,,x x x x x 整体上对y 有高度显著的线性影响,,但是仅凭相关系数的大小是不能决定变量的取舍的。
由表19得线性回归方程:
12345ˆ3698.6860.0420.0320.0447.1030.251y x x x x x =-+++-+ 而12345
,,,,P P P P P 的值均大于0.05,回归系数并没有通过显著性检验,我们可以采取“后退法”或“前进法”进行分析,其中“后退法”具体的方法及分析步骤前面已经给
结论
通过以上一系列的分析,x1GDP(万元)、x2居民消费(万元)、x5来华旅游入境人数(万人)和x4民航航线里程(万公里)与民航客运量y(万人)均具有正相关关系,这表明近几年我国经济迅猛发展,国民收入增加,乘飞机外出、旅游等其他活动的人数比例有所增加,民航里程线也增加,而且来华旅游者大都比较富裕,加上路程较远,他们就选择了飞机作为交通工具,因此对民航客运量的影响较大,进一步刺激了我国经济的发展;很显然x3铁路客运量(千人)对民航客运量的影响较弱。
参考文献:
[1] 何晓群《实用回归分析》—北京:高等教育出版社,2008.5
[2]《中国统计年鉴》《中国统计年鉴》(1981—2010年民航客运量)
【注】写这篇论文用了大概两周的时间,因为这次是第一次写论文,对论文的格式和要求并不了解,所以刚开始的时候遇到了很多问题,在复制spss分析的表格和图像时,有的表格和图像太大,调整时候很是麻烦,还有在分析时不够全面具体……有很多不足之处还请老师多多指点。