当前位置:文档之家› 2015重庆大学数理统计大作业综述

2015重庆大学数理统计大作业综述

研究生课程考核试卷(适用于课程论文、提交报告)科目:数理统计教师:刘琼荪姓名:xxx 学号:20150702xxx 专业:机械工程类别:学术上课时间:2016 年 3 月至2016 年 4 月考生成绩:卷面成绩平时成绩课程综合成绩阅卷评语:阅卷教师(签名)我国上世纪70-90年代民航客运量回归分析摘要:中国民航从上实际50年代发展至今已有60多年的历史,这期间中国民航经历了曲折的发展。

随着改革开发以来,中国人民的生活水平日渐提高,出行坐乘飞机逐渐人们可选的交通方式。

我国民航客运量逐年提高,为了研究其历史变化趋势及其成因,现以民航客运量作为因变量y,假设以国民收入x1、消费额x2、铁路客运量x3、民航航线里程x4、来华旅游入境人数x5为影响民航客运量的主要因素。

利用SPSS和excel软件通过建立回归模型分析我国民航客运量主要受到其中哪些因素的影响,并就回归模型分析具体可能的成因。

关键词:民航客运量影响因素回归模型一、问题提出及问题分析2004年,民航行业完成运输总周转量230亿吨公里、旅客运输量1.2亿人、货邮运输量273万吨、通用航空作业7.7万小时。

截止2004年底,我国定期航班航线达到1200条,其中国内航线(包括香港、澳门航线)975条,国际航线225条,境内民航定期航班通航机场133个(不含香港、澳门),形成了以北京、上海、广州机场为中心,以省会、旅游城市机场为枢纽,其它城市机场为支干,联结国内127个城市,联结38个国家80个城市的航空运输网络。

民航机队规模不断扩大,截止至2004年底,中国民航拥有运输飞机754架,其中大中型飞机680架,均为世界上最先进的飞机。

2004年中国民航运输总周转量达到230亿吨公里(不包括香港、澳门特别行政区以及台湾省),在国际民航组织188个缔约国中名列第3位。

从上述事实可以看出我国民航的发展所取得的成果显著。

当前我国民航客运量相当巨大,而影响我国航运客运量的因素有很多,例如第三产业增加值(亿元),城市居民消费水平(绝对元),定期航班航线里程(万千里)等[1]。

为了研究过去的情况,从中国统计年鉴[2]得到1994年统计摘要,分析类似因素对我国航空客运量的影响。

二、数据描述如下为所得统计数据:表1 1978-1993年统计数据年份y民航客运量(万人)x1国民收入(亿元)x2消费额(亿元)x3铁路客运量(万人)x4民航航线里程(万公里)x5来华旅游入境人数(万人)1978231 301018888149114.89180.92 1979298 335021958638916420.39 1980343 368825319220419.53570.25 1981401 394127999530021.82776.71 1982445 425830549992223.27792.43 1983391 4736335810604422.91947.7 1984554 5652390511035326.021285.22 1985744 7020487911211027.721783.3 1986997 7859555210857932.432281.95 19871310 9313638611242938.912690.23 19881442 11738803812264537.383169.48 19891283 13176900511380747.192450.14 19901660 1438496639571250.682746.2 19912178 16557109699508155.913335.65 19922886 20223129859969383.663311.5 19933383 248821594910545896.084152.7三、模型建立:(1)提出假设条件,明确概念,引进参数;参考相关书籍[3],设随机变量民航客运量为Y (万人),解释变量1X ,2X ,3X ,4X ,5X 分别为国民收入(亿元),消费额(亿元),铁路客运量(万人),民航航线里程(万公里),来华旅游入境人数(万人),且回归函数11225501155(|,,,)E Y X x X x X x x x βββ==⋅⋅⋅==++⋅⋅⋅+,称201155,0,Y x x E D DY βββεεεσ=++⋅⋅⋅++===,为多元线性回归模型,015,,,βββ⋅⋅⋅为回归系数,ε为随机误差。

125(,,,,),1,2,,5i i i i x x x y i ⋅⋅⋅=⋅⋅⋅为上述来自多元线性回归模型的样本值,满足:201155125,0,,1,2,,5,,,,i i i i i i y x x E D i βββεεεσεεε⎧=++⋅⋅⋅++===⋅⋅⋅⎨⋅⋅⋅⎩相互独立为了便于对模型进行参数估计、模型检验、变量选择等,有必要对模型作如下一些基本假定。

1. 解释变量1X ,2X ,3X ,4X ,5X 是可控制的、非随机变量,互不相关。

2. 随机误差项具有零均值和同方差的性质,即2,1,2,,5i D i εσ==⋅⋅⋅,并且125,,,εεε⋅⋅⋅相互独立,则有(),0,,,1,2,5i j Cov i j i j =≠=…,εε。

3. 随机变量误差项服从正态分布,即()2~0,,1,2,5i N i =…εσ (2)模型构建:由表1通过EXCEL 绘制变量,1,2,,5i X i =⋅⋅⋅对因变量Y 的关系散点图如下:图1 民航客运量与国民收入关系图图2 民航客运量与消费额关系图图3 民航客运量与铁路客运量关系图图4 民航客运量与民航航线里程关系图图5 民航客运量与来华旅游入境人数关系图由以上的散点图看出:y 与3x 存在非线性关系,但与其它几个变量基本是线性相关的。

所以首先考虑回归模型为多元线性模型。

四、模型求解。

采用最小二乘估计法求解模型参数,采用SPSS 软件计算,得到如下结果:表2 拟合过程小结RR 平方调整后的 R 平方标准估算的错误Durbin-Watson(U)1.999a.998.99749.492401.993模型摘要b模型a. 预测变量:(常量),x5, x3, x4, x2, x1b. 因变量:y表3 方差分析平方和自由度均方F显著性回归13818876.76952763775.3541128.303.000b残差24494.981102449.498总计13843371.75015b. 预测变量:(常量),x5, x3, x4, x2, x1ANOVA a模型1a. 因变量:y表4 回归过程统计量标准系数B标准错误贝塔容许VIF (常量)450.909178.0782.532.030x2-.561.125-2.485-4.478.001.0011740.508x1.354.085 2.447 4.152.002.0011963.337x3-.007.002-.083-3.510.006.315 3.171x421.5784.030.5315.354.000.01855.488x5.435.052.5648.440.000.04025.1931a. 因变量:y系数a模型非标准化系数t 显著性共线性统计图6 残差图则回归方程为12345450.9090.3540.5610.00721.5780.435y x x x x x =+--++五、模型分析检验(1)决定系数由决定系数2R =0.998看出回归方程高度显著。

(2)方差分析表123451128.303=0.000,,,y F P x x x x x =,值,这说明,整体上对有高度显著的影响。

(3)回归系数的显著性检验(t 检验):回归系数的显著性检验由显著性一列看出自变量的回归系数都通过了t 检验(即收尾概率小于规定的显著性水平0.05),说明5个自变量对y 的影响显著。

其中3x 铁路客运量的显著性为0.006最大,但仍小于5%。

(4)检验残差序列的自相关性(D-W 检验):D-W=1.993≈2,所以认为模型不存在序列的自相关性。

(6)异方差检验从残差图看出所有点落在±2之间,没有明显变化趋势,所以认为()2~0,,1,2,5i N i =…εσ综上,认为用最小二乘估计的方法估计的模型理论上是有效的。

(7) 模型进一步分析虽然,模型通过了检验,但是由之前的图可知2x 与y 正相关,但2x (国民消费额)的回归系数是负值,显然是矛盾的,同时1x 和2x 的VIF 很大,4x ,5x 的VIF 也大于10,其原因是自变量之间的共线性,因而回归模型还要就共线性问题进行谈论。

如下表是各变量之间的相关系数:表5 相关系数表yx1x2x3x4x5相关系数 1.000.933**.933**.367*.933**.933**显著性(双尾).000.000.048.000.000N161616161616相关系数.933**1.0001.000**.400*.967**.933**显著性(双尾).000.031.000.000N161616161616相关系数.933**1.000**1.000.400*.967**.933**显著性(双尾).000.031.000.000N161616161616相关系数.367*.400*.400*1.000.367*.400*显著性(双尾).048.031.031.048.031N161616161616相关系数.933**.967**.967**.367*1.000.900**显著性(双尾).000.000.000.048.000N161616161616相关系数.933**.933**.933**.400*.900**1.000显著性(双尾).000.000.000.031.000N161616161616**. 相关性在 0.01 级别显著(双尾)。

*. 相关性在 0.05 级别显著(双尾)。

相关性肯德尔tau_byx1x2x3x4x5可以看出, y 与1x ,2x ,4x ,5x 的相关系数都在0.9以上,说明所选自变量与y 高度线性相关,验证之前的散点图。

用y 与自变量作多元线性回归是适合的。

另一方面,3x 与各变量的相关系数均小于0.5,而1x ,2x ,4x ,5x 之间的相关系数均达到0.9以上,所以应尝试解决它们之间的共线性。

首先剔除VIF 最大的1x ,计算剩余变量参与的回归方程。

结果如下:表6 统计量表标准系数B标准错误贝塔容许VIF (常量)695.039264.5252.627.024x2-.053.042-.233-1.262.233.01377.546x3-.012.003-.134-4.207.001.431 2.319x432.037 4.951.788 6.471.000.03033.812x5.399.080.5174.988.000.04124.4691a. 因变量:y系数a模型非标准化系数t 显著性共线性统计可以看出,当前2x 的VIF 最大,同时2x 也没通过t 检验,其显著性0.233远大于0.05,故继续剔除2x 。

相关主题