当前位置:文档之家› 最新重庆大学数理统计大作业

最新重庆大学数理统计大作业

研究生课程考核试卷(适用于课程论文、提交报告)科目:数理统计教师:刘琼荪姓名: xxx 学号: 20150702xxx 专业:机械工程类别:学术上课时间: 2016 年 3 月至 2016 年 4 月考生成绩:卷面成绩平时成绩课程综合成绩阅卷评语:阅卷教师 (签名)我国上世纪70-90年代民航客运量回归分析摘要:中国民航从上实际50年代发展至今已有60多年的历史,这期间中国民航经历了曲折的发展。

随着改革开发以来,中国人民的生活水平日渐提高,出行坐乘飞机逐渐人们可选的交通方式。

我国民航客运量逐年提高,为了研究其历史变化趋势及其成因,现以民航客运量作为因变量y,假设以国民收入x1、消费额x2、铁路客运量x3、民航航线里程x4、来华旅游入境人数x5为影响民航客运量的主要因素。

利用SPSS和excel软件通过建立回归模型分析我国民航客运量主要受到其中哪些因素的影响,并就回归模型分析具体可能的成因。

关键词:民航客运量影响因素回归模型一、问题提出及问题分析2004年,民航行业完成运输总周转量230亿吨公里、旅客运输量1.2亿人、货邮运输量273万吨、通用航空作业7.7万小时。

截止2004年底,我国定期航班航线达到1200条,其中国内航线(包括香港、澳门航线)975条,国际航线225条,境内民航定期航班通航机场133个(不含香港、澳门),形成了以北京、上海、广州机场为中心,以省会、旅游城市机场为枢纽,其它城市机场为支干,联结国内127个城市,联结38个国家80个城市的航空运输网络。

民航机队规模不断扩大,截止至2004年底,中国民航拥有运输飞机754架,其中大中型飞机680架,均为世界上最先进的飞机。

2004年中国民航运输总周转量达到230亿吨公里(不包括香港、澳门特别行政区以及台湾省),在国际民航组织188个缔约国中名列第3位。

从上述事实可以看出我国民航的发展所取得的成果显著。

当前我国民航客运量相当巨大,而影响我国航运客运量的因素有很多,例如第三产业增加值(亿元),城市居民消费水平(绝对元),定期航班航线里程(万千里)等[1]。

为了研究过去的情况,从中国统计年鉴[2]得到1994年统计摘要,分析类似因素对我国航空客运量的影响。

二、数据描述如下为所得统计数据:表1 1978-1993年统计数据三、模型建立:(1)提出假设条件,明确概念,引进参数;参考相关书籍[3],设随机变量民航客运量为Y (万人),解释变量1X ,2X ,3X ,4X ,5X 分别为国民收入(亿元),消费额(亿元),铁路客运量(万人),民航航线里程(万公里),来华旅游入境人数(万人),且回归函数11225501155(|,,,)E Y X x X x X x x x βββ==⋅⋅⋅==++⋅⋅⋅+,称201155,0,Y x x E D DY βββεεεσ=++⋅⋅⋅++===,为多元线性回归模型,015,,,βββ⋅⋅⋅为回归系数,ε为随机误差。

125(,,,,),1,2,,5i i i i x x x y i ⋅⋅⋅=⋅⋅⋅为上述来自多元线性回归模型的样本值,满足:201155125,0,,1,2,,5,,,,i i i i i i y x x E D i βββεεεσεεε⎧=++⋅⋅⋅++===⋅⋅⋅⎨⋅⋅⋅⎩相互独立为了便于对模型进行参数估计、模型检验、变量选择等,有必要对模型作如下一些基本假定。

1. 解释变量1X ,2X ,3X ,4X ,5X 是可控制的、非随机变量,互不相关。

2. 随机误差项具有零均值和同方差的性质,即2,1,2,,5i D i εσ==⋅⋅⋅,并且125,,,εεε⋅⋅⋅相互独立,则有(),0,,,1,2,5i j Cov i j i j =≠=…,εε。

3. 随机变量误差项服从正态分布,即()2~0,,1,2,5i N i =…εσ (2)模型构建:由表1通过EXCEL 绘制变量,1,2,,5i X i =⋅⋅⋅对因变量Y 的关系散点图如下:图1 民航客运量与国民收入关系图图2 民航客运量与消费额关系图图3 民航客运量与铁路客运量关系图图4 民航客运量与民航航线里程关系图图5 民航客运量与来华旅游入境人数关系图由以上的散点图看出:y 与3x 存在非线性关系,但与其它几个变量基本是线性相关的。

所以首先考虑回归模型为多元线性模型。

四、模型求解。

采用最小二乘估计法求解模型参数,采用SPSS 软件计算,得到如下结果:表2 拟合过程小结RR 平方调整后的 R 平方标准估算的错误Durbin-Watson(U)1.999a.998.99749.492401.993模型摘要b模型a. 预测变量:(常量),x5, x3, x4, x2, x1b. 因变量:y表3 方差分析平方和自由度均方F显著性回归13818876.76952763775.3541128.303.000b残差24494.981102449.498总计13843371.75015b. 预测变量:(常量),x5, x3, x4, x2, x1ANOVA a模型1a. 因变量:y表4 回归过程统计量标准系数B标准错误贝塔容许VIF (常量)450.909178.078 2.532.030x2-.561.125-2.485-4.478.001.0011740.508x1.354.085 2.447 4.152.002.0011963.337x3-.007.002-.083-3.510.006.315 3.171x421.578 4.030.531 5.354.000.01855.488x5.435.052.5648.440.000.04025.1931a. 因变量:y系数a模型非标准化系数t显著性共线性统计图6 残差图则回归方程为12345450.9090.3540.5610.00721.5780.435y x x x x x=+--++五、模型分析检验(1)决定系数由决定系数2R=0.998看出回归方程高度显著。

(2)方差分析表123451128.303=0.000,,,yF P x x x x x=,值,这说明,整体上对有高度显著的影响。

(3)回归系数的显著性检验(t检验):回归系数的显著性检验由显著性一列看出自变量的回归系数都通过了t 检验(即收尾概率小于规定的显著性水平0.05),说明5个自变量对y 的影响显著。

其中3x 铁路客运量的显著性为0.006最大,但仍小于5%。

(4)检验残差序列的自相关性(D-W 检验):D-W=1.993≈2,所以认为模型不存在序列的自相关性。

(6)异方差检验从残差图看出所有点落在±2之间,没有明显变化趋势,所以认为()2~0,,1,2,5i N i =…εσ综上,认为用最小二乘估计的方法估计的模型理论上是有效的。

(7) 模型进一步分析虽然,模型通过了检验,但是由之前的图可知2x 与y 正相关,但2x (国民消费额)的回归系数是负值,显然是矛盾的,同时1x 和2x 的VIF 很大,4x ,5x 的VIF 也大于10,其原因是自变量之间的共线性,因而回归模型还要就共线性问题进行谈论。

如下表是各变量之间的相关系数:表5 相关系数表可以看出, y 与1x ,2x ,4x ,5x 的相关系数都在0.9以上,说明所选自变量与y 高度线性相关,验证之前的散点图。

用y 与自变量作多元线性回归是适合的。

另一方面,3x 与各变量的相关系数均小于0.5,而1x ,2x ,4x ,5x 之间的相关系数均达到0.9以上,所以应尝试解决它们之间的共线性。

首先剔除VIF 最大的1x ,计算剩余变量参与的回归方程。

结果如下:表6 统计量表可以看出,当前2x 的VIF 最大,同时2x 也没通过t 检验,其显著性0.233远大于0.05,故继续剔除2x 。

计算剩余参数的回归方程,结果如下:表7 统计量表表8 拟合过程小结表9 方差分析表平方和df均方FSig.回归13766977.58134588992.527720.839.000残差76394.169126366.181总计13843371.75015Anovab模型1可以看出三个变量的VIF 均小于10,且均通过了t 检验。

说明此回归模型不存在强多重共线性,回归系数也有合理的经济解释。

20.994R 说明回归方程高度显著,方差分析的结果也说明回归方程显著性高。

图7 残差直方图图8 残差正态P-P 图由P-P 图和直方图可知残差服从正态分布,所以模型是有效的[4]。

所以民航客运量的回归模型为:345591.8760.0126.4360.317y x x x =-++。

六、岭回归模型除了上述方法,在处理自变量之间存在强线性相关的情况时,可以采用岭回归进行估计(虽然牺牲了一定的无偏性)[5]。

采用SPSS 编写程序运行可得到如下岭回归结果。

表10 K值表R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF KK RSQ x1 x2 x3 x4 x5______ ______ ________ ________ ________ ________ ________.00000 .99823 2.447386 -2.48510 -.083140 .530538 .563537.02000 .99233 .187301 .092804 -.095611 .457966 .300920.04000 .99085 .215764 .162616 -.086464 .389117 .260362.06000 .98998 .228824 .190661 -.081056 .356915 .243273.08000 .98932 .235679 .205373 -.076926 .337619 .233855.10000 .98873 .239543 .214116 -.073407 .324407 .227824.12000 .98816 .241760 .219676 -.070252 .314569 .223561.14000 .98759 .242981 .223345 -.067345 .306809 .220327.16000 .98699 .243559 .225800 -.064628 .300426 .217741.18000 .98636 .243702 .227435 -.062066 .295009 .215585.20000 .98571 .243539 .228490 -.059635 .290298 .213730图9 岭迹图由上述结果,可知RSQ均大于0.98,取K=0.85,再进行岭回归,得岭回归模型:表11 岭回归统计表可以看出除了3x 的回归系数为负,其余均为正,同时各变量的显著性检验均通过。

相关主题