四川理工学院《应用回归分析课程设计》报告题目: 中国地方财政教育支出的影响因素分析学生:雷鹏程何君李西京曾学成白俊明专业:统计学指导教师:***四川理工学院理学院二零一四年十二月摘要本文主要研究中国地方财政教育支出主要的影响因素,针对影响地方财政教育支出的主要因素进行了分析。
选取了5个影响指标作为方程的初始自变量,建立起了影响地方财政教育支出的线性回归模型,利用SPSS软件对地方财政教育支出进行初步线性回归分析,以及利用逐步回归方法解决了自变量之间的多重共线性,并对模型的异方差进行了检验和自相关性的检验,进而得到修正后的回归模型,并对回归模型进行了分析,得到方程效果良好的结论,指出模型的应用价值。
在此基础上同时给出相应的政策与建议。
关键字:多元线性回归、逐步回归、自相关。
一、问题提出改革开放以来,随着经济的快速增长,中国各级政府对教育的投入不断增加。
2012年中央和地方公共财政预算、政府性基金预算用于教育的预算支出21994亿元,达到了占国内生产总值4%的目标。
据财政部公布的数据,2011年,全国中央和地方财政的教育支出16497亿元,占全部财政支出的15.1%,其中,中央财政教育支出999亿元,地方财政支出15498亿元。
在全国中央和地方财政的教育支出中,地方财政的教育支出约占94%,地方财政支出是财政教育经费的主要来源。
然而,由于各地区社会经济发展差异较大,各地区财政的教育支出水平也差异明显。
2011年人均地方财政教育支出最低的湖南仅为819.99元,北京是湖南的3.14倍。
为了研究影响中国地方财政教育支出差异的主要原因,分析地方财政教育支出增长的数量规律,预测中国地方财政教育支出的增长趋势,需要建立起经济回归模型,。
二、模型设定为了全面反映中国地方财政教育经费支出的差异,选择地方财政教育支出为被解释变量。
根据对影响中国地方财政教育支出主要因素的分析,选择“地区生产总值”作为地区经济规模的代表;各地区居民对教育模式的需求,选择各地区“年末人口数量”作为代表。
选择“居民平均每人教育现金消费”代表居民对教育质量的需求;选择居民教育消费价格指数作为价格变动影响的因素,地方政府教育投入的能力与意愿难以直接量化,选择“教育支出在地方支出中的比重”作为其代表。
以国家统计局已经公布的2011年31个省份的数据为样本从《中国统计年鉴2012》可以收集到数据。
三、模型建立与求解鉴于数据的可获性以及影响的重要性,对于地方财政教育支出的主要影响因素我们主要选取了以下五个影响因素:地区生产总值、年末人口数、居民平均每人教育现金消费、CPI(居民消费价格指数)、教育支出在地方财政支出中的比重。
我们的数据来源于国家统计公布的2011年31个省份为数据样本参考附录表[1],经过对这31个省份的经济数据进行分析,设定“地区生产总值”为1x ,年末人口数为2x ,居民平均每人教育现金消费为3x ,CPI 为4x ,教育支出在地方财政支出中的比重为5x ,作为自变量;地方财政教育支出设为y ,作为因变量。
根据所选区的生产总值、年末人口数、居民平均每人教育现金消费、CPI(居民消费价格指数)、教育支出在地方财政支出中的比重五项指标,建立如下的多元线性回归模型:μββββββ++++++=55443322110x x x x x y0β:表示在没有任何因素影响下地方财政教育支出1β:表示地区生产总值对地方财政教育支出的影响2β:表示年末人口数对地方财政教育支出的影响3β:表示居民平均每人教育现金消费对地方财政教育支出的影响4β:表示CPI 对地方财政教育支出的影响5β:表示教育支出在地方财政支出中的比重对地方财政教育支出的影响u :随机扰动项3.1最小二乘法对一般形式多元回归模型的参数估计理论基础: 设随机变量y 与随机变量1x ,2x ,…,p x 的线性回归模型为:+++=22110x x y βββ…+p p x β+uu 是随机扰动项,与一元回归一样,随机扰动项我们常假定:⎩⎨⎧==2)var(0)(σu u E 对于一个实际问题,如果我们可以获得n 组观测数据,则多元线性回归模型的矩阵形式表示为:U X Y +=β其中⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n y y y Y 21 ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=np n n p p x x x x x xx x x X 212222111211111 ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=p ββββ 10 ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n u u u U 21最小二乘法就是寻找参数0β,1β,2β,…,p β的估计值0ˆβ,1ˆβ,2ˆβ,…,pβˆ,使离差平方和Q (β,1β,2β,…,p β)=∑=-----n i ip p i i i x x x y 1222110)(ββββ 达到极小,即寻找0ˆβ,1ˆβ,2ˆβ,…,pβˆ满足: Q (0β,1β,2β,…,p β)=∑=-----ni ip p i i i x x x y 1222110)(ββββ=pβββ 10,min∑=-----ni ip p i i ix x x y1222110)(ββββ (3.1)依照(3.1)式中求出的0ˆβ,1ˆβ,2ˆβ,…,p βˆ就称为回归系数0β,1β,2β,…,p β的最小二乘估计。
从(3.1)式中求出0ˆβ,1ˆβ,2ˆβ,…,p βˆ是一个极值问题。
由于Q 是关于0β,1β,2β,…,p β的非负二次函数,因而它的最小值总存在的。
根据微积分中求极值原理,0ˆβ,1ˆβ,2ˆβ,…,pβˆ应满足下列方程组: ⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧=-----=∂∂=-----=∂∂=-----=∂∂∑∑∑0)ˆˆˆ(2ˆ0)ˆˆˆ(20)ˆˆˆ(2110111011100ip ip ip i i Pi ip ip i i ip p i i x x x y Q x x x y Q x x y Q ββββββββββββ 以上方程组经过整理后,得到矩阵形式表示的正规方程组为:0)ˆ(=-'βX Y X 移项得:Y X X X '='βˆ,当1-')(X X 存在时,可得到回归参数的最小二乘估计为:Y X X X ''=-1`ˆ)(β四、模型的检验与修正利用SPSS(19.0)采用进入法计算出的回归参数估计结果如下表:ANOVA bModel Sum of SquaresdfMean Square F Sig. 1Regression 2179849.620 5 435969.924 114.875.000aResidual 94879.100 25 3795.164Total2274728.72130a. Predictors: (Constant), x5, x3, x4, x1, x2b. Dependent Variable: y表3回归参数估计结果表由上表1、2、3知该回归模型为:u x x x x x y ++++++-=543211.296358.18003.0033.0014.0542.1794(1181.234) (0.002) (0.008) (0.01) (11.542) (489.949) t=(-1.519)(8.279)(3.992)(0.325)(1.591)(0.604)979.02=R 958.02=R F=114.875该模型可初步通过经济意义上的检验,系数符号均符合经济意义,并且我们发现出了模型的F 值大于其临界值,说明5个变量联合起来对模型有显著影响,同时979.02=R ,958.02=R ,由此可得该模型的拟合度很好。
但是部分回归系数的显著性检验不能通过,我们猜测模型中存在多重共线性,使得其他因素的影响的准确度受到了影响。
因此我们需要进一步对模型进行多重共线性检验与修正。
1.多重共线性检验与修正4-1.1多重共线性检验利用SPSS(19.0)计算出各个自变量之间的相关系数表,如下表4所示:表4各个自变量的相关系数矩阵由相关系数矩阵看出1x 与2x 、5x 之间存在较高的相关系数,显然模型存在多重共线性。
4-1.2多重共线性修正利用SPSS(19.0)软件采用逐步回归方法对模型的多重共线性问题进行修正,输出的参数回归结果如下表5所示,其余结果表见附录表所示:表5共线性后修正后的模型参数回归结果表多重共线性修正后的回归模型为:=yˆ117.047+0.0141x +0.0352x +μ (20.714)(0.002)(0.008) t=(5.652) (8.773) (4.631)2R =0.954 2R =0.95 F=287.471模型修正多重共线性后,模型的拟合程度很好, 2R =0.954,并且整个回归模型是显著的,每个自变量的t 检验也是较为显著。
所以接下来我们考虑到模型可能存在自相关与异方差,所以我们又对模型进行了异方差与自相关的检验与修正。
2.异方差检验与修正4-2.1 等级相关系数检验利用SPSS(19.0)软件对消除多重共线性后的模型进行等级相关系数检验,检验表如下表6所示:Correlationss x1 x2 Spearman's rhosCorrelation Coefficient 1.000-.215-.271Sig. (2-tailed) . .247 .141 N31 31 31 x1Correlation Coefficient -.2151.000.807**Sig. (2-tailed) .247 . .000 N31 31 31 x2Correlation Coefficient -.271.807**1.000Sig. (2-tailed) .141 .000 . N313131**. Correlation is significant at the 0.01 level (2-tailed).表6等级相关系数检验表由上表6可得,残差绝对值与自变量1x 、2x 的等级相关系数分别为1,x s r =-0.215,2,x s r =-0.271,且P 值分别为:0.247,0.141,我们可认为残差绝对值与自变量1x 、2x 不显著相关,所以回归模型不存在异方差。
3.1自相关检验与修正3-3.1DW 检验由修正多重共线性后的模型回归表知道DW=2.077,在显著性水平0.05下,查DW 表知道,当n=31,k=2时,得到上临界值L d =1.297,下临界值U d =1.570。
所以L d <DW<4-U d ,所以该模型不存在序列自相关。
3-3.2图示法检验利用SPSS(19.0)画出1-t e 与t e 的散点图,输出结果图如下图1所示:图1 1-t e 与t e 散点图由1-t e 与t e 的散点图大致看出大部分点无规律的分布在第一、二、三、四象限中,所以随机误差项不存在序列自相关。