题目我国各阶段民航客运量的回归分析模型学生姓名张栋栋学号 ********** 所在学院数学与计算机科学学院专业班级数应1101班指导教师李晓康 __ ____完成地点陕西理工学院 ___2015年5月10日我国各阶段的民航客运量的回归分析模型张栋栋(陕西理工学院数学与计算机科学学院数学与应用数学2011级数应1班,陕西 汉中 723000)指导教师:李晓康[摘 要] 为了研究我国民航客运量的变化规律及其原因,通过对我国部分年份民航客运量数据进行统计和收集,运用多元线性回归分析的方法并建立相关模型,找出影响我国民航客运量的主要因素,并对模型进行评价分析,为以后我国民航发展提供科学依据。
[关键词] 民航客运量 回归分析 相关性 阶段1.引言民航业作为科技型新兴产业,在我国众多行业中占有重要以及特殊的地位.伴随着整个国民经济的发展而不断发展壮大,民航产业作为国民经济的重要行业,同时作为民用相对先进方便的交通运输方式,是我国运输行业中必不可少的一部分,它的发展程度深刻反映了一个国家的经济水平,也对我国贸易和旅游业有着巨大的贡献,也越来越受到国家的重视[8]。
我国航空业起步较晚,但发展速度较快,民用航空业伴随着经济的增长也不断迅猛壮大,运输能力显著增强,据工信部提出到2020年民用飞机年产收入将超过1000亿元,然而面对难得的机遇,要求航空企业制定合理的决策,促进民航企业进行更好地进行收益管理。
目前国内很多学者的研究范围包括对我国民航空间格局与竞争态势的研究,对我国民航客运价格定价机制与制改革的探讨,以及运用各种共统计方法对民航客运需求的研究。
本文在一定的数据分析上,针对一定的时间段我国民航客运量的部分影响因素:国内生产总值、居民消费、铁路客运量、民航航线历程、来华旅游人数,并分两个时间段对我国民航客运量的变化趋势及成因做出了研究,运用多元回归分析的方法对后续民航客运分析与预测打下基础,并且对每个建立的模型进行了对比,得到一个最好的关于我国民航客运量的回归模型,根据模型对我国目前民航运输业发展中面临的问题提出有效建议,提高我国民航的市场竞争力,最后对全文进行评价及总结。
2.多元线性回归模型的基本理论一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。
其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。
因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。
这就产生了测定多因素之间相关关系的问题。
研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。
多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。
2.1 多元线性回归模型的一般形式设随机变量y 与一般变量p x x x x ,,,321的线性回归模型为εββββββ+++++++=--p p p p x x x x x y 113322110(2.1)其中2~(0,)N εσ,p ββββ ,,,210为回归系数,对y 和p x x x x ,,,321分别进行n 次独立观测,取得n 组数据(本))n ,3,2,1(,,,,121 =-i x x x y ip i i i则有:1011121211112012122212120112211p p p p n n p np ny x x x y x x x y x x x ββββεββββεββββε------=+++++⎧⎪=+++++⎪⎨⎪⎪=+++++⎩(2.2)将其写成矩阵形式为εβ+=x y 2~(0,)n N I εσ (2.3)其中n εεεε ,,,321相互独立,且服从2(0,)N σ分布。
令⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡=n y y y Y ..21 , ⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡=-121..p ββββ ,⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡=-121..p εεεε(2.4)1112112122211211..1..............1..p p n n np x x x x x x x x x x ---⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦(2.5) 矩阵x 是一)1(*+p n 矩阵,称x为回归设计矩阵或试验矩阵。
在实验设计中,x的元是预先设定并且可以控制的,人的主观因素可作用于其中,因而也称x矩阵为设计矩阵。
2.2 线性回归模型的参数估计2.2.1模型参数β的最小二乘法估计与误差方差2σ的估计β的最小二乘法估计即选择β使误差项的平方和为最小值, 这时β的值ˆβ作为β的点估计。
)()()(ββεεβx y x y s T T--== (2.6)为了求β,由(6)式将)(βs 对β求导,并令其为零,得()[()()]0T ds d y x y x d d βββββ--==[()]0T T T T T T d y y x y y x x x d βββββ--+= (2.7)由(7)式可解出ˆβ,即1ˆ()()T T x x x y β-= (2.8) 对残差向量ε, 1ˆˆˆ[()]T T y yy x I x x x x y εβ-=-=-=- (2.9)则残差平方和为: 1ˆˆˆˆ[()]TT T T T T T I x x x x y y y x y εεεβ-=-=- 又因为βx y E =)(,因此 2ˆˆ()()TE n p εεσ=-,21ˆˆ()T n pσεε=- (2.10) 关于多元线性回归模型中样本容量的问题: (1)最小样本容量在多元线性回归模型中,样本容量必须不少于模型中解释变量的数目(包括常数项),这就是最小样本容量,即:1+≥k n 。
(2)满足基本要求的样本容量一般经验认为,当30≥n 或者至少)1(3+≥k n 时,才能说满足模型估计的基本要求[1]。
2.3 回归方程的检验2.3.1回归方程的显著性检验( F 检验)F 检验即回归方程的显著性检验,是对模型中被解释变量与解释变量之间的线性关系在总体上是否显著性成立做出推断。
为了建立对0H 进行检验的F 统计量,利用总离差平方和的分解式,即2221111ˆˆ()()(),nnni i i i i i y y y y y y ===-=-+-∑∑∑简写为SST SSR SSE =+ (2.11)~(,1)(1)SSR mF F m n m SSE n m =---- ,22ˆˆ(),()i i i SSE y ySSR y y =-=-∑∑ 其中m 为自变量个数,n 为数据个数。
F 服从)1,(--m n m F 分布取显著性水平为α,可以从F 分布表中查出相应的自由度。
若)1,(--≤m n m F F a ,接受原假设; 若)1,(-->m n m F F a ,则接受备选假设。
如果(,1)a F F m n m >--,表明回归模型显著,可从用于预测。
反之,(,1)a F F m n m ≤--,则认为回归方程不显著,即回归模型不能用于预测。
2.3.2 回归系数的显著性检验显然,如果某个自变量j x 对y 的作用不显著,那么在回归模型中,它的系数j β就取值为零。
因此,检验变量j x 是否显著,相当于检验假设p j H j j,,2,1,0:0 ==β记作p j i c X X ij T ,,2,1,0,),()(1==- 于是有2ˆˆ(),var()j j j jj E c βββσ== 据此可以构造t 统计量ˆj t β=(2.12)其中ˆσ==是回归标准差。
因此,当/2jt tα≥时,拒绝原假设:0j jHβ=,此时自变量jx对因变量y的线性效果就显著;当/2jt tα<时,接受原假设:0j jHβ=,此时自变量jx对因变量y的线性效果就不显著;2.3.3回归方程拟合度检验(R检验)R检验也就是拟合优度,拟合优度用于描述回归方程对样本观测值的拟合程度。
222112211ˆˆ()()1()()n ni i ii in ni ii iy y y yRy y y y====--==---∑∑∑∑(2.13)R==R是复相关系数,用于测定回归模型的拟合优度,R越大,说明Y与121,,-pxxx 的线性关系越显著,iY-为iY的平均值,这里R取值范围为10≤<R。
3.1981-2010年我国民航客运量整体回归分析通过以上对回归模型的了解,我们可以收集相关数据,分析我国民航客运量与以其影响因素之间的关系。
以民航客运量作为因变量y,以国民产总值x1(万元),居民消费额x2(万元),铁路客运量x3(万人),民航航线里程x4 (万公里),到华旅游人数x5(万人)作为影响民航客运量的主要因素。
表3.1 我国1981-2010年民航客运量人数及其相关因素数据年份y民航客运总量(万人)x1GDP(万元)x2居民消费(万元)x3铁路客运量(万人)x4民航航线里程(万公里)x5来华旅游入境人数(万人)1981 401 4891.6 2627.9 95300 21.83 776.711982 445 5323.4 2902 99922 23.27 792.431983 391 5962.7 3231.1 106044 22.91 947.71984 554 7208.1 3742 110353 26.02 1285.221985 744 9016 4687.4 112110 27.72 1783.31986 997 10275.2 5302.1 108579 32.43 2281.951987 1310 12058.6 6126.1 112429 38.91 2690.231988 1442 15042.8 7868.1 122645 37.38 3169.481989 1283 16992.3 8812.6 113807 47.19 2450.141990 1660 18667.8 9450.9 95712 50.68 2746.2 1991 2178 21781.5 10730.6 95080 55.91 3335.65 1992 2886 26923.5 13000.1 99693 83.66 3811.5 1993 3383 35333.9 16412.1 105458 96.08 4152.7 1994 4039 48197.9 21844.2 108738 104.56 4368.4 1995 5117 60793.7 28369.7 102745 112.9 4638.65 1996 5555 71176.6 33955.9 94797 116.65 5112.75 1997 5630 78973 36921.5 93308 142.5 5758.79 1998 5755 84402.3 39229.3 95085 150.58 6347.84 1999 6094 89677.1 41920.4 100164 152.22 7279.56 2000 6722 99214.6 45854.6 105073 150.29 8344.39 2001 7524 109655.2 49435.9 105155 155.36 8901.29 2002 8594 120332.7 53056.6 105606 163.77 9790.83 2003 8759 135822.8 57649.8 97260 174.95 9166.21 2004 12123 159878.3 65218.5 111764 204.94 10903.82 2005 13827 184937.4 72652.5 115583 199.85 12029.23 2006 15968 216314.4 82103.5 125656 211.35 12494.21 2007 18576 265810.3 95609.8 135670 234.3 13187.33 2008 19251 314045.4 110594.5 146193 246.18 13002.74 2009 23052 340506.9 121129.9 152451 234.51 12647.59 2010 26843 397983 154554.1 168145 276.5 13182.34(数据来自2011年中国统计年鉴)3.1对收集的数据用SPSS进行相关性分析表3.2 相关性by民航客运总量(万人)x1GDP(万元)x2居民消费(万元)x3铁路客运量(万人)x4民航航线里程(万公里)x5来华旅游入境人数(万人)y民航客运总量(万人)Pearson 相关性1 .996**.994**.809**.936**.932**显著性(单侧).000 .000 .000 .000 .000x1GDP(万元)Pearson 相关性.996** 1 .995**.820**.929**.922**显著性(单侧).000 .000 .000 .000 .000x2居民消费(万元)Pearson 相关性.994**.995** 1 .784**.950**.937**显著性(单侧).000 .000 .000 .000 .000x3铁路客运量(千人)Pearson 相关性.809**.820**.784** 1 .597**.622**显著性(单侧).000 .000 .000 .000 .000x4民航航线里程(万公里)Pearson 相关性.936**.929**.950**.597** 1 .978**显著性(单侧).000 .000 .000 .000 .000x5来华旅游入境人数(万人) Pearson 相关性 .932** .922** .937** .622** .978** 1 显著性(单侧).000.000.000.000.000**. 在 .01 水平(单侧)上显著相关。