当前位置：文档之家› 北航数理统计大作业(逐步回归)

北航数理统计大作业(逐步回归)

应用数理统计第一次大作业
学号：
姓名：
班级：B11班
2015年12月
民航客运量的多元线性回归分析
摘要：本文为建立以民航客运量为因变量的多元线性回归模型，选取了1996年至2013年的统计数据，包含国民生产总值，民航航线里程，过夜入境旅游人数，城镇居民可支配收入等因素，利用统计软件SPSS对各因素进行了筛选分析，采用逐步回归法得到最优多元线性回归模型，并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验，并采用2014年的数据进行检验，得到的结果达到预期，证明该模型建立是较为成功的。

关键词：多元线性回归，逐步回归法，民航客运量
0.符号说明
变量符号
国民生产总值X1
铁路客运量X2
民航航线里程X3
入境过夜旅游人数X4
城镇居民人均可支配收入X5
1.引言
随着社会的进步，人民生活水平的提高，如何获得更快捷方便的交通成为人们日益关注的问题。

因为航空的安全性，快速且价格水平越来越倾向大众，越来越多的人们选择航空这种交通方式。

近年来，我国的航空客运量已经进入世界前列，为掌握航空客运的动态，合理安排班机数量。

科学地对我国民航客运量的影响因素的分析，并得出其回归方程，进而能够估计航空客运量是非常有必要的。

本文收集整理了与我国航空客运量相关的历年数据，运用SPSS软件对数据进行分析，研究1996年起至2013年我国民航客运量y（万人）与国民生产总值X1（亿元）、铁路客运量X2（万人）、民航航线里程X3（万公里）、入境过夜旅游人数X4（万人）、城镇居民人均可支配收入X5（元）的关系。

采用逐步回归法建立线性模型，选出较优的线性回归模型。

2.数据的统计与分析
本文在进行统计时，查阅《中国统计摘要》，《中国统计年鉴2014》以及中国知网数据查询中的数据，收集了1996年至2013年各个自变量因素的数据，分析它们之间的联系。

整理如表1所示。

表1：
201026769397983.5168145276.54753.8419109.4 201129316473104146192349.054924.3221809.8 201231896519470.1189337328.015668.6324564.7 201335397568845.2210597410.65562.3926955.1
2.1模型的建立
以民航客运量y为因变量，以上5种影响因素为自变量X i，构建回归方程：
其中为常数项，为误差项。

先观察自变量与因变量的关系，用SPSS得到各个自变量与因变量的散点图：
图1 民航客运量与国内生产总值散点图
图2 民航客运量与铁路客运量散点图
图3 民航客运量与航线里程散点图
图4 民航客运量与入境过夜人数散点图
图5 民航客运量与人均可支配收入散点图
从以上五张散点图，我们可以看出因变量民航客运量与国内生产总值，入境
过夜旅游人数和城镇居民人均可支配收入均有较好的线性关系
，这说明建立线性模型是有意义的。

继续下一步逐步回归分析，逐步回归的基本思想是将变量逐个引入模型，每引入一个变量后都要进行F检验，并对已经选入的变量逐个进行t检验，当原来引入的变量由于后面变量的引入变得不再显著时，则将其删除。

以确保每次引入新的变量之前回归方程中只包含先主动变量。

这是一个反复的过程，直到既没有显著的变量选入回归方程，也没用不显著的变量从回归方程中剔除为止。

在SPSS 软件中可直接进行逐步回归分析，得出以下结果：
由表2知，逐步回归后得出两个模型，模型1只包含城镇居民可支配收入，其他自变量都没有进入模型，模型2在1的基础上再纳入了过夜入境旅游人数，其他的自变量也都被排除了。

表2
输入／移去的变量a
模型输入的变量移去的变量方法
1 城镇居民人均可支配
收入
. 步进（准则:
F-to-enter 的概率
<= .050，F-to-remove
的概率 >= .100）。

2 过夜游客. 步进（准则:
F-to-enter 的概率
<= .050，F-to-remove
的概率 >= .100）。

a. 因变量: 民用航空客运量表3
2.2拟合度检验
由表4，模型1的决定系数R2=0.992，模型2的决定系数R2=0.995，可以看出回归方程都高度显著，且模型2比模型1更优。

2.3回归方程的显著性检验：
由表5，方差分析表Sig值都<0.05，说明每个模型都拒绝回归系数均为0的假设，每个方程都是显著的。

表5
Anova a
模型平方和df均方F Sig.
1回归1678659397.18411678659397.1842183.841.000b 残差12298767.26116768672.954
总计1690958164.44417
2回归1684069181.3702842034590.6851833.437.000c 残差6888983.0751*******.538
总计1690958164.44417
a. 因变量: 民用航空客运量
b. 预测变量: (常量), 城镇居民人均可支配收入。

c. 预测变量: (常量), 城镇居民人均可支配收入, 过夜游客。

由表6可以得到两个模型的回归方程分别：
1.以城镇居民可支配收入为自变量的拟合函数：
y=-1698.669+1.406X5
2. 以城镇居民可支配收入和过夜入境旅游人数为自变量的拟合函数：
y=-3267.728+0.817X5+2.871X4
且所有系数的显著性水平都小于0.05，每个回归方程都是有意义的。

表6
系数a
模型非标准化系数标准系数t Sig.
B标准误差试用版
1
(常量)-1698.669423.955-4.007.001城镇居民人均可支配收入 1.406.030.99646.732.000
2(常量)-3267.728562.492-5.809.000城镇居民人均可支配收入.817.173.579 4.721.000过夜游客 2.871.837.421 3.432.004
a. 因变量: 民用航空客运量
表7是残差统计结果。

主要显示预测值、标准化预测值、残差和标准化残差等统计量的最大值、最小值、均值和标准差。

残差平方和Q描述的是随机误差
引起因变量Y的分散程度，Q越大分散性也越大，则线性关系越不明显。

由表7
可见标准化残差的最大绝对值为1.758。

而且标准残差的均值为0，说明随机误差对Y值的影响很小。

表7
残差统计量a
极小值极大值均值标准偏差N
预测值4581.80435339.83615600.4449953.034418
残差-1191.5225973.1963.0000636.580218
标准预测值-1.107 1.983.000 1.00018
标准残差-1.758 1.436.000.93918
a. 因变量: 民用航空客运量
2.4多重共线性的诊断
表8是SPSS软件的多重共线性诊断表，它包括3项诊断值：特征值、条件数和方差比率。

特征值表明在自变量中存在多少截然不同的维数，当几个特征值都接近0是，变量是高度相关的。

条件数是最大特征值对每一个连续特征值的比率的平方根，若条件数大于15则表明可能存在多重共线问题，若大于30则表明存在严重的多重共线性问题。

显然表8中变量X4过夜入境旅游人数的条件数大于30，说明回归方程存在多重共线性。

2.5残差检验
如图6是残差分布直方图。

在回归分析中，总是假定残差服从正态分布，这个图就是根据样本数据的计算结果显示残差分析的实际情况。

从图来看标准化残差还是近似服从正态分布的。

图6
如图7残差的积累概率图基本围绕在假设直线（正态分布）周围，说明残差分布基本符合正态分布，说明民航客运量这个因变量基本上可以用线性回归方法建立模型。

3.结论
为了解决多重共线性的问题，排除模型2，考虑到模型1的拟合度也是很好的，综合来看认为模型1为更优。

最终得到的回归方程为：
y=-1698.669+1.406X5
并以2014年的数据检验该回归方程，2014年航空客运量为39195万人，城镇居民人均可支配收入为28843.9，将自变量X5带入回归方程得到y=38855.85万人，与实际的客运量39195万人的误差为0.86%。

因此可以认为该模型基本达到了预期的目标。

通过最优回归方程，我们可以发现航空客运量与城镇居民的可支配收入线性相关十分显著，这是符合常识的，只有居民可支配收入越来越高，才会选择航空这种昂贵的客运方式。

图7
参考文献：
[1] 2015年中国统计年鉴
[2] 孙海燕、周梦、李卫国、冯伟. 应用数理统计.北京航空航天大学出版社，
2009
[3] 朱卫卫. 基于偏最小二乘回归的我国民航客运量影响因素分析[J]. 中国
市场. 2010(41): 110-112
如有侵权请联系告知删除，感谢你们的配合！。

e商务文档

北航数理统计大作业(逐步回归)

相关文档推荐：