当前位置:文档之家› 我国民航客运量数据分析报告

我国民航客运量数据分析报告


1.00000
x2
x2
0.98399 <.0001 0.90909 <.0001 0.94255 <.0001 0.83184 <.0001
1.00000
x3
x3
0.84801 <.0001 0.98353 <.0001 0.86195 <.0001
1.00000
x4
x4
0.77963 <.0001 0.77703 <.0001
1087.6306 4 1 1 1 1 1 0.05255 0.24589 -0.01571 -5.50643 0.59508
DF
5
Sum of Squares
2756365766
Mean Square
55127315 3
F Value
1450.5 9
Pr > F
<.000 1
29 34
11020942 2767386708 616.46775 7804.40000 7.89898
Mean Square
918711781 362947
F Value
2531.25
Pr > F
<.0001
R-Square Adj R-Sq
0.9959 0.9955
Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F
我国民航客运量数据分析报告
一.Introduction
我国经济高速发展,国民生活水平有了显著提高,出行方面更加便利,我国民航发展尤 其迅速。 研究我国民航客运量的变化趋势以及其成因, 可以更好地了解我国民航业发展情况, 和未来发展方向,更好的确定发展战略。 本文采用 SAS 软件做定量回归分析,以民航客运量作为因变量,以国民收入、城镇居 民消费水平、铁路客运量、民航航线里程、入境游客人数为影响民航客运量的主要因素,探 索其中的主要影响因素,并给出回归方程。根据现在经济状况,提出一定建议。Y 表示民航 客运量(万人),x1 表示国民收入(亿元)x2 表示城镇居民消费水平(元)x3 表示铁路客 运量(万人)x4 表示民航航线里程(万公里)x5 表示入境游客人数(万人)。经过数据分 析,得出最终的回归方程.。 本文第二部分介绍数据基本信息并给出相关性分析。第三部分对数据进行最小二乘估 计,并对其进行检验和修正。第四部分得出最终方程,并对方程做出解释。附录部分给出源 数据及 SAS 代码。
2.1 正态性检验
根据残差直方图可以判断基本符合正态性。 2.2 多重共线性检验 ①相关矩阵和散点图。 第一部分中已经给出了变量间的相关关系矩阵以及他们之间的棋盘式散点图。 从中我们 可以看出,自变量之间的 pearson 相关系数较高,存在很强的相关性,自变量间的散点图中 显示出了自变量间很可能存在线性关系。 ②VIF 系数 根据 ols 回归结果中给出的 VIF 系数我们可以看到,除 X5 之外的自变量的 VIF 系数都 超过了 10,我们可以认为 ols 回归估计模型中存在多重共线性问题。 ③R2 和 t 检验 回归方程的 R2 很大,但是单个因变量的 t 检验基本上皆不显著。认为可能存在共线性 问题。 2.2.1 多重共线性的修正 本文中采取逐步回归剔除变量的方法进行再次回归, 以消除共线性问题。 回归结果如下。
x5
0.86185 <.0001 0.83184 <.0001 0.86195 <.0001 0.77703 <.0001 0.88075 <.0001
x1
x1
0.99581 <.0001 0.98838 <.0001 0.89687 <.0001 0.95484 <.0001 0.86185 <.0001
R-Square Adj R-Sq
0.6526 0.5275
计算 n R =22.19 >
2
2 (9) =16.9,在 5%的显著性水平下存在异方差,需要修正。
2.3.2 异方差的修正 本文采取加权最小二乘的方法对存在的异方差问题进行修正。 权重采用原回归的残差绝 对值的倒数。回归结果如下:
Root MSE Dependent Mean Coeff Var
Parameter Estimates Variable Intercep t x1 x3 x5 DF Parameter Estimate
1 1659.07277
Standard Error
929.98292
t Value
1.78
Pr > |t|
0.0842
Variance Inflation
0
1 1 1
2.2 相关系数矩阵
Pearson 相关系数 y y
y 1.00000
x1
0.99581 <.0001
x2
0.98838 <.0001 0.98399 <.0001
x3
0.89687 <.0001 0.90909 <.0001 0.84801 <.0001
x4
0.95484 <.0001 0.94255 <.0001 0.98353 <.0001 0.77963 <.0001
0.05942 -0.02156 0.62278
0.00194 0.00960 0.11423
30.61 -2.25 5.45
<.0001 0.0319 <.0001
7.47187 5.80896 3.27278
根据逐步回归,剔除了 x2 和 x4 变量,仅对 x1,x3,x5 进行回归。观察回归结果可以看到模型 通过了 F 检验以及 t 检验,且 VIF 值均小于 10。多重共线性问题得到了解决。 2.3 异方差检验 ①散点图
二.DATA
1.数据描述
简单统计量 变量 y x1 x2 x3 x4 x5 均值
7804 113163 5889 113590 123.511 3003
标准偏差
9022 145490 5762 25950 95.27405 1636
总和
273154 3960697 206123 3975637 4323 105097
根据图示,红色为 X2,城镇居民消费水平。仅有这一项跟随时间显示大幅度变化,出存 在非平稳性。
三.MODEL&ANALYSIS
1.ols 回归
首先对 5 个自变量和因变量做最小二乘估计,拟合现行方程,拟合结果如下。
Analysis of Variance Source Model Error Corrected Total Root MSE Dependent Mean Coeff Var Paramete r Estimate
DW ,求得 为 0.461.。通过杜宾两步法修正自相关。 2
通过了方程的 F 检验和参数的 t 检验, VIF 均小于 10,没有多重共线性问题。检查其 DW 值为 1.97,在 n=3,k=35 的条件下,du=1.803<1.97,所以在α=0.05 的显著性水平上, 不存在多重共线性。并再次应用怀特检验检验是否存在异方差。检验结果如下:
Durbin-Watson Statistics Order 1 2 3 4 5 DW
1.0791 1.5371 1.8135 2.2129 2.5541
Pr < DW
0.0009 0.0811 0.3569 0.8458 0.9885
根据上表可以看出,一阶 Durbin-Watson 统计量为 1.0791,其 p 值为 0.0009,极其显著, 强烈拒绝一阶自相关系数为 0 的原假设。因此,自相关性的校正是必须的,滞后阶数为 1. 通过 DW 值计算 值, 1 修正后结果为
1.00000
x5
x5
0.88075 <.0001
1.00000
观察自变量与因变量的散点图,可以发现自变量与各因变量之间存在明显的线性关系。 从相关矩阵可以看出,自变量与个因变量均高度相关,但因变量之间也存在很强的相关性, 所以在最小二乘法基础下进行拟合的回归模型会存在多重共线性。
3.数据预处理:简单检验数据平稳性
yn 0.33576 0.05728 xn1 0.00608 xn2 0.59341xn3
β0=0.33576/(1-0.461)=0.6229 模型为:
y 0.6229 0.05728 x1 0.00608 x 2 0.59341x3
四.Conclusion
我国经济高速发展,国民生活水平有了显著提高,出行方面更加便利,我国民航发展尤 其迅速。 研究我国民航客运量的变化趋势以及其成因, 可以更好地了解我国民航业发展情况, 和未来发展方向,更好的确定发展战略。 本文引用统计年鉴中的数据,其中 Y 表示民航客运量(万人),x1 表示国民收入(亿 元)x3 表示铁路客运量(万人)x5 表示入境游客人数(万人),对民航客运量进行研究。 根据回归模型
t Value
0.74
Pr > |t|
0.4644
Variance Inflation
0
5.73 0.75 -1.07 -0.52 3.69
<.0001 0.4621 0.2952 0.6076 0.0009
159.10501 323.45039 13.08395 91.36749 6.24673
2.检验与修正
最小值
231 3010 405 81491 14.9 181
最大值 标签
31936 532872 20864 189337 349 5773
民航客运量(万人) 国民收入(亿元) 城镇居民消费水平(元) 铁路客运量(万人) 民航航线里程(万公里) 入境游客人数(万人)
相关主题