当前位置:文档之家› 最新北航数理统计大作业-多元线性回归

最新北航数理统计大作业-多元线性回归

北航数理统计大作业-多元线性回归应用数理统计多元线性回归分析(第一次作业)学院:姓名:学号:2013年12月交通运输业产值的多元线性回归分析摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找影响交通运输业发展的因素,包括工农业发展水平、能源生产水平、进出口贸易交流以及居民消费水平等,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,最后可以利用有效的最优回归模型对将来进行预测。

关键字:多元线性回归,逐步回归,交通运输产值,工业产值,进出口总额1,引言交通运输业指国民经济中专门从事运送货物和旅客的社会生产部门,包括铁路、公路、水运、航空等运输部门。

它是国民经济的重要组成部分,是保证人们在政治、经济、文化、军事等方面联系交往的手段,也是衔接生产和消费的一个重要环节。

交通运输业在现代社会的各个方面起着十分重要的作用,因此研究交通运输业发展水平与各个影响因素间的关系显得十分重要,建立有效的数学相关模型对于预测交通运输业的发展,制定相关政策方案提供依据。

根据经验交通运输业的发展受到工农业发展、能源生产、进出口贸易以及居民消费水平等众因素的影响,故建立一个完整精确的数学模型在理论上基本无法实现,并且在实际运用中也没有必要,一种简单有效的方式就是寻找主要影响因素,分析其与指标变量的相关性,建立多元线性回归模型就是一种有效的方式。

变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。

研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。

回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。

一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。

如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。

回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。

通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。

实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。

本文查找2012年《中国统计年鉴》取1996年-2011年共16年间的数据,利用SPSS软件对影响交通运输业发展的因素进行讨论构造多元线性线性回归模型。

以探求影响交通运输业发展水平的各个因素,得到最优线性回归模型。

随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。

2,基础知识及相关理论2.1 回归分析回归分析研究的主要对象是客观事物变量间的统计关系,它是建立在对客观事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。

回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效的工具。

在实际问题回归分析模型的建立和分析中有几个重要的阶段:●根据研究的目的设置指标变量回归分析模型主要是揭示事物间相关变量的数量联系。

首先要根据所研究问题的目的设置因变量Y,然后再选取与Y有统计关系的一些变量作为自变量。

●收集、整理统计数据回归分析模型的建立是基于回归变量的样本统计数据。

当确定好回归模型的变量之后,就要对这些变量收集、整理统计数据。

●确定理论回归模型的数学形式当收集到所设置的变量的数据之后,就要确定适当的数学形式来描述这些变量之间的关系。

如果因变量与自变量的散点图近似一条直线,可考虑用线性回归模型去拟合这条直线,如果二者之间无线性关系,则需要使用非线性模型构造回归模型。

●模型参数的估计回归理论模型确定之后,便可以利用收集、整理的样本数据对模型的未知参数给出估计。

位置参数的估计方法最常用的是普通最小二乘法,它是经典的估计方法。

●模型的检验当模型的位置参数估计出来后,需要通过对模型的检验才能决定参数估计是否合适。

模型的检验一般需要进行统计检验和模型经济意义的检验。

统计检验是对回归方程的显著性检验、以及回归系数的显著性检验,还有拟合优度的检验,残差的独立性检验等。

●回归模型的运用当一个问题的回归模型通过了各种统计检验,且模型具有合理的经济意义时,就可以运用这个模型来进一步研究此问题。

在客观问题的研究中,我们需要参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能保证回归模型在客观问题研究中得到正确运用。

2.2 多元回归分析一元线性回归模型研究的是某一个因变量和一个自变量之间的关系问题,但在实际中,因变量的变化常常受到不止一个自变量的影响,可能同时有两个或两个以上的自变量对因变量的变化产生影响。

这种研究某一个因变量和多个自变量之间的相互关系的理论和方法就是多元线性回归分析方法,它是一元线性模型的拓展。

设随机变量Y与个一般变量的线性回归模型可表示为:称为回归常数,称为偏回归系数,他们决定了因变量Y与自变量的线性关系的具体形式;是随机误差,满足。

如果获得满足条件的n组观测数据,其中,则线性回归模型可表示为其中。

上式写成方程组形式为记,,,则回归模型成为2.3 逐步回归法在实际问题中, 人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。

所谓“最优”回归方程, 主要是指希望在回归方程中包含所有对因变量y影响显著的自变量而不包含对y影响不显著的自变量的回归方程。

逐步回归分析正是根据这种原则提出来的一种回归分析方法。

它的主要思路是在考虑的全部自变量中按其对y的作用大小, 显著程度大小或者说贡献大小, 由大到小地逐个引入回归方程, 而对那些对y作用不显著的变量可能始终不被引人回归方程。

另外, 己被引人回归方程的变量在引入新变量后也可能失去重要性, 而需要从回归方程中剔除出去。

引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步, 每一步都要进行F检验, 以保证在引人新变量前回归方程中只含有对y影响显著的变量, 而不显著的变量已被剔除。

由此可见,逐步回归法是一种向前法和向后法的一种结合,具体步骤是(预先给定一个F出和F进或α出和α进,为避免死循环,要求F出≤F进):1)逐步回归法的前两部与向前法的前两步相同,并假定已建立了不完全的相关模型;2)当引入变量X2(X L2)后,对X1(X L1)做偏F检验,看X1是否需要剔除(即为向后法):<1>如果F L1>F出,则不剔除X L1,并继续引入下一个变量;<2>如果F L1<F出,则从模型中剔除X L1,再继续引入下一个变量。

重复上述步骤,直到所有模型外的变量都不能引入,模型内的变量都不能被剔除为止。

3,模型建立本文查询了1996年至2011间共16的交通运输业增加值,详细分析了影响交通运输业发展的相关因素,利用统计软件SPSS逐步回归法尝试建立交通运输业增加值与各个因素间的线性回归模型。

3.1 设置变量近年来,国内交通运输业得到了大力发展,交通运输业产值可以作为衡量交通运输业发展水平的重要指标,本文设置交通运输业产值作为指标变量。

交通运输业作为为国民经济服务的第三产业,其发展受到工农业的发展、能源生产的影响,同时国内外贸易交流水平近年来也深刻影响了运输业的发展,作为交通运输主要对象的居民,居民消费水平、旅游花费等也影响了运输业的发展。

经过分析,本文选择农业生产总值、工业生产总值、能源生产总量、进出口总额、居民消费价格指数、国民旅游总花费以及交通运输年客运量共7个因素作为解释变量研究交通运输业的发展。

各变量具体设置为:解释变量:X1:农业生产总值(亿元)X2:工业生产总值(亿元)X3:能源生产总量(万吨标准煤)X4:进出口总额(亿元)X5:居民消费价格指数X6:国民旅游总花费(亿元)X7:客运量(万人)指标变量:Y:交通运输增加值(亿元)3.2 数据收集和整理本文所用数据均来源于《中国统计年鉴》(2012年),选取1996年-2011数据作为回归模型样本。

数据见表1所示。

表 1 1996年-2011年各变量数据4,数据处理与分析本文基于表1数据样本建立多元线性回归模型并进行检验,研究思路为:首先对解释变量进行相关性分析筛选主要影响因素,然后利用逐步回归法,取显著性水平采用SPSS软件对回归系数进行估计,最后从回归方程显著性、拟合度以及残差三个方面对模型进行检验,证实模型的有效性。

4.1 初步确定理论回归模型研究指标变量与各个解释变量的相关性可以利用散点图直观分析剔除相关性不显著的因素,也可以利用SPSS软件直接计算Pearson相关系数筛选主要影响因素。

本文利用SPSS软件计算各因素相关系数如表2所示。

表 2 各影响因素与指标变量的相关系数相关系数可以数值的方式精确的反应两个变量间线性关系的强弱,样本相关系数为r,|r|>0.8时认为高度相关,0.5<|r|<0.8中度相关,0.3<|r|<0.5低度相关,|r|<0.3相关程度极弱,可视为不相关。

从表2中可知,Y与X5相关系数为0.305,相关程度很弱,在建立回归模型中可以忽略该因素的影响;而Y与其他因素都高度相关,从相关性选取回归模型主要影响因素X2、X3和X4。

图1与图2分别表示指标变量Y与解释变量X5和X2的散点图,从图中也可直观分析出影响Y变量的X变量的线性相关性。

图 1 Y与X5散点图图 2 Y与X2散点图交通运输业产值与居民消费价格指数相关性很弱,这是因为居民消费价格指数反映的是一定时期内城乡居民做购买的生活消费品和服务价格变动趋势和程度,居民消费水平受到多种因素影响,不能以它作为影响交通运输业发展的主要线性因素。

而交通运输业的发展主要受益于工业水平的发展,以及能源生产水平的发展,近年来受国内外贸易交流影响增大,故选这三个主要因素作为回归模型分析。

回归模型建立为:0234234Y X X X ββββε=++++ 4.2 模型参数估计确定主要影响因素X2、X3和X4后,采用逐步回归法,取显著性水平使用SPSS 软件对原始数据作线性回归分析,得到最优回归方程,逐步回归法得到回归系数表如表3所示。

表 3 模型回归系数表模型非标准化系数 标准系数 tSig.B标准 误差 试用版1(常量)1452.353295.0464.922.000x2 .113 .003 .99535.783 .000 2(常量)1676.209260.459 6.436 .000 x2 .080 .012 .709 6.437 .000 x4.024.009.293 2.658.020a. 因变量: y逐步回归模型中采用F 检验引入解释变量显著性水平阈值10.05α=,剔除解释变量显著性水平20.1α=。

相关主题