当前位置:文档之家› 北航数理统计回归分析大作业

北航数理统计回归分析大作业

数理统计(课程大作业1) 逐步回归分析学院:机械工程学院专业:材料加工工程日期:2014年12月7日摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。

关键字:多元线性回归 逐步回归法 财政收入 SPSS1 引言自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。

为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。

数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。

财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。

财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。

财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。

本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。

2 多元线性回归2.1 多元线性回归简介在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。

由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。

对多元线性回归模型简要介绍如下:如果随机变量y 与m )2(≥m 个普通变量m x x x 21,有关,且满足关系式:εββββ++++=m m x x x y 22110 2,0σεε==D E(2.1)其中,2210,,,σββββm 是与m x x x 21,无关的未知参数,ε是不可观测的随机变量,),0(~2N I N σε。

式(2.1)为m 元理论线性回归模型,其中m ββββ 210,,为回归系数,m x x x 21,为回归因子或设计因子。

),,2,1(m i i =β实际上反映了因子),,2,1(m i x i =对观测值y 的作用,因此也称),,2,1(m i i =β为因子),,2,1(m i x i =的效应。

通过对回归系数),,2,1(m i i =β进行最小二乘估计后,可以得到m 元经验回归方程为:mm x x x y ββββˆˆˆˆˆ22110++++=(2.2)也称式(2.2)为m 元线性回归方程。

0ˆβ为回归常数,也称回归系数,m βββˆˆ,ˆ21 称为回归系数。

2.2 逐步回归法在多元线性回归分析中,由于有多个自变量,回归自变量的选择成为建立回归模型的重要问题。

通常,一方面,为获取全面信息总希望模型中包括的自变量尽可能多;另一方面,考虑到获取很多自变量的观测值的费用和实际困难,则希望模型中包含尽可能少而且重要的变量。

因此,人们常根据某种规则对自变量进行筛选。

本次选用的方法是逐步回归法。

1)回归效果的显著性检验y 与变量m x x x 21,线性相关的密切程度可以用回归平方和U 在总平方和yyL 中所占的比例来衡量。

称yyL UR =为y 关于m x x x 21,的样本复相关系数,yyL UR =2为样本决定系数。

在多元线性回归的实际应用中,用复相关系数来表示回归方程对原有数据拟合程度的好坏。

显然102≤≤R ,其越接近1,回归方程拟合程度越高。

2)偏F 检验检验某个自变量对y 的影响是否显著的正规方法是偏F 检验。

设原回归方程(全模型)为:mm i i i i i i x x x x x x y βββββββˆˆˆˆˆˆˆˆ111122110++++++++=++--去掉变量i x 后的新回归方程(减模型)为:mm i i i i x x x x x y ββββββˆˆˆˆˆˆˆ111122110+++++++=++-- 全模型的复相关系数的平方为2R ,减模型的复相关系数的平方为2i R ,定义222i i R R R -=∆。

若2i R ∆几乎为零,则说明x 对y 没有显著影响,反之则表示x 对y 有其它变量不可替代的显著影响。

检验假设:0:;0:2120≠∆=∆i i R H R H当0H 为真时,检验统计量为)1,1(~ˆ)1/()1(2222--=---∆=m n F c S m n R R F iii i i β 对于给定显著性水平α,由样本计算出i F 的值,若),1,1(1--≥-m n F F i α则拒绝0H ,说明x 对y 有显著影响,应在减模型中引入自变量x ;反之则应剔除x ,使之成为减模型。

偏F 检验通常被用作变量筛选的依据。

逐步回归法中就是对各变量采用偏F 法进行检验的。

3) 逐步回归法的步骤逐步回归法的基本思想是:将变量逐个引入,引入条件是该变量的偏F 检验是显著的。

同时,每引入一个新变量后又对老变量逐个检验,将变得不显著的变量从回归模型中剔除。

具体步骤如下:1、对m 个自变量分别与y 建立回归模型ii i x y )0()0(0ˆˆˆββ+=,对它们分别计算i F ,得i F 中最大的那个值,比如1L F 。

(Ⅰ)如果进F F L <1,则计算结束,即y 与所有自变量均线性无关; (Ⅱ)如果进F F L ≥1,则引入1x L ,建立回归方程1)1(1)1(0ˆˆˆL x y ββ+= (2.3)2、建立y 与自变量子集},{1i L x x (1L i ≠)的二元回归模型ii L i i x x y )0()0(1)0(0ˆˆˆˆ1βββ++= (2.4)以式(2.4)为全模型,式(2.3)为减模型求i F 值,并取得i F 中最大的那个值,比如说2L F 。

⑴如果进F F L <2,则计算结束,这时建立的模型为式(2.3); ⑵如果进F F L ≥2,则引入2x L ,建立回归方程21)2(2)2(1)2(0ˆˆˆˆL L x x y βββ++= (2.5)3、当引入2x L 后,对1x L 做偏F 检验,看1x L 是否需要剔除; ⑴如果出F F L >1,则不剔除1x L ,并继续引入下一个变量; ⑵如果出F F L ≤1,则从式2.4中剔除1L x ,再继续引入下一个变量。

重复上述步骤,直到所有模型外的变量都不能引入,模型内的变量都不能被剔除为止。

3 财政收入回归分析实例本次作业利用SPSS 软件和逐步回归法,对原始数据进行了回归分析,并最终获得了“最优”回归方程,解决这个问题。

3.1 数据收集及处理首先进行参考数据的选择,根据查阅书籍以及中国统计局网站得到的数据资料,归纳出可能影响国家财政收入的一些主要因素,包括国内生产总值(亿元),人口数(万人)等。

本文从中选取了国内生产总值(亿元),人口数(万人),能源生产总量(标准煤)(万吨),农作物总播种面积(千公顷),货运量(万吨),出口总额(亿元),进口总额(亿元),建筑业总产值(亿元)8个因素作为本次考查的重点,并对其与财政收入的相关关系进行分析。

表1所示为所选取的自1995年至2012年18年间财政收入与所选变量的数据汇总。

3.2 建立回归模型过程为了研究财政收入与各种影响因素的关系,必须要建立二者之间的数学模型。

数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。

而实际生活中,影响财政收入的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立财政收入的数学模型往往是很难的。

但是为了便于研究,我们可以建立财政收入与各影响因素的线性回归模型,模型如下:Y=α1X 1+α2X2+α3X 3+α4X 4+α5X 5+α6X 6+α7X 7+α8X 8其中,Y 是因变量, i X 是自变量,i 是各个自变量的系数。

各变量符号的定义见表2。

3.3 线性回归模型的验证通过一些假设可以得到工业生产总值与各影响因素的线性回归模型。

然而这些假设是否合理,所建模型是否接近实际的工业生产总值,需要进一步验证。

故作出数据散点图,观察因变量与自变量之间关系是否有线性特点。

散点图结果如图1所示。

(1)(2)(3)(4)(5)(6)(7)(8)(1)财政收入与国内生产总值散点图;(2)财政收入与人口数散点图;(3)财政收入与能源生产总量;(4)财政收入与农作物总播种面积散点图;(5)财政收入与货运量散点图;(6)财政收入与出口总额散点图;(7)财政收入与进口总额散点图;(8)财政收入与建筑业总产值散点图图1 财政收入与各种因素散点图由于多元逐步回归分析方法是一种多元线性回归方法,指标变量若呈非线性关系则会影响模型精度。

所以首先判断因变量和自变量是否存在非线性关系。

从图1可以看出,人口数X与财政收入Y之间大致呈指数关系,而农作物总播种2与财政收入Y之间的线性关系很不显著,都是可以首先剔除的变量。

其面积X4余变量错误!未找到引用源。

都与财政收入Y具有线性作用且正相关,需要通过逐步分析方法进行进一步的显著性判断。

3.4 线性回归的结果及分析利用统计数据建立回归模型,用SPSS软件的线性回归分析功能,得到以下数据。

由表3可以看出货运量、国内生产总值和能源生产总量这三个自变量经过逐步回归过程被选择进入了回归方程。

被选择的判据是变量进入回归方程的F的概率不大于0.05,被剔除的判据是变量进入回归方程的F的概率不小于0.10。

表4显示三个模型的拟合情况,模型3的复相关系数R=1.000,可决系数2R =0.999,调整可决系数为0.999,估计值的标准差为916.74710,可见模型3的拟合度较高。

从表5中看出方差分析结果可以看出,三个模型的F 值检验Sig 值远小于0.01,可见,最终模型的整体线性关系是成立的。

如表6所示,包含的是进入模型的变量,主要描述模型的参数估计值,以及每个变量的系数估计值的显著性检验和共线性检验。

结果模型中所有变量系数的t检验Sig值都接近或小于0.01,说明这些系数都显著的不为0,因此,最终的回归方程应当包含货运量、国内生产总值和能源生产总量这三个自变量,且方程拟和效果很好。

如表7所示,给出的是所有未进入最终模型的变量检验信息,由t检验的Sig 值都大于0.1,这些变量对模型的贡献都不明显,所以它们都不包含在最终方程中。

进口总额(亿-.037b-.779 .449 -.204 .030 元)建筑业总产值.319b 1.660 .119 .406 .002 (亿元).073c 1.478 .163 .379 .016 3 出口总额(亿元)进口总额(亿.101c 2.111 .055 .505 .014 元)建筑业总产值.188c 1.142 .274 .302 .001 (亿元)a.模型中的预测变量: (常量) , 货运量(万吨)b.模型中的预测变量: (常量), 货运量(万吨), 国内生产总值(亿元)c模型中的预测变量: (常量), 货运量(万吨), 国内生产总值(亿元), 能源生产总量(万吨)d. 因变量: 财政收入表8 残差统计量极小值极大值均值标准偏差N预测值5652.1587 116279.0000 38679.2983 34698.46056 18 残差-1919.03113 1378.36218 .00000 831.93444 18 标准预测值-.952 2.236 .000 1.000 18 标准残差-2.093 1.504 .000 .907 18 a. 因变量: 财政收入(亿元)图2 标准化残差直方图标准化残差的P-P图通过比较样本残差分布与假设的正态分布是否相同来检验残差是否符合正态分布,所有残差点都分布在对角的直线附近,说明残差的正态性假设基本成立。

相关主题