当前位置:文档之家› 应用回归分析课程设计论文-财政收入模型分析

应用回归分析课程设计论文-财政收入模型分析

《应用回归分析》课程设计题目中国财政收入模型分析摘要:本文选1978-2009年的农业总产值、工业增加值、建筑业增加值、第三产业增加值、社会消费总额、人口数、受灾面积、价格指数这八个因素通过多元线性回归分析和岭分析对国家财政收入模型进行分析,分析出影响财政收入的主要原因,并对模型联系实际进行分析,以供国家和企业个人进行决策做参考。

关键词:财政收入、多元线性回归、多重共线性、岭分析背景:新华网中国财政部部在全国财政工作会议上,2009年中国财政收入预计达到68477亿元,增长11.7%。

财政赤字在人大批准的预算之内。

在应对国际金融危机背景下,中国财政收入实现两位数的增长,意味着年初预算确定的财政收入增长目标如期完成。

2009年是进入新世纪以来中国经济社会发展最为困难的一年,也是财政收支矛盾十分尖锐的一年。

根据年初预算安排,2009年中国财政收入预计达到66230亿元,增长幅度定为8%。

全国财政赤字规模为9500亿元。

面对国际金融危机严重冲击、经济增速明显放缓、企业效益下滑、大规模实施结构性减税政策等带来的一系列严峻挑战,中国各级财政部门认真实施积极财政政策,狠抓收支管理,圆满完成全年财政收支预算目标。

2009年12月份,全国财政收入5084亿元,比上年同月增加1822亿元,增长55.8%。

其中,中央本级收入1831亿元,同比增长1.4倍;地方本级收入3253亿元,同比增长30.2%。

本月收入增幅较高,主要是因为上年12月收入基数很低,以及当年成品油税费改革后消费税增加较多,投资、信贷快速增长带动房地产、建筑安装业营业税大幅增长等因素的影响。

财政收入中的税收收入59515亿元,比上年增长9.8%;非税收入8962亿元,比上年增长26.1%。

主要收入项目:国内增值税增长2.7%,国内消费税增长85.3%(剔除成品油税费改革和卷烟消费税政策调整的增收因素后增长7%左右),营业税增长18.2%,企业所得税增长3.2%,个人所得税增长6.1%,进口货物增值税、消费税增长4.6%,关税下降16.2%,证券交易印花税下降47.9%,车辆购置税增长17.5%。

另外,出口退税6487亿元,比上年增长10.6%,相应减少财政收入。

对于上述情况我们应从根本上来分析一下影响我国财政收入一些因素,对于国家政策的调整有很大的作用。

1、引言财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。

财政收入分为税收收入、国有资产收益、国债收入和收费收入以及其他收入等,而财政收入已经占90%以上,政府提供服务所得收入为8%左右,而来自企业的收入一直处于补贴状态,所有理论上国家的财政收入应该取决于税收贡献大的部门,另外今年来价格指数一直攀升,也是影响国家财政收入的不可忽略的因素之一,由此我们可以建立国家财政收入的回归模型:以1978年-2009年的财政收入y 为因变量,选取农业总产值x1、工业增产值x2、第三产业增加值x3、社会消费总额x5(以上单位为亿元)、受灾面积x6(单位为万公顷)、人口数x7(万人)、价格指数x8(以1978年为基底)为自变量。

相关数据均来自历年的统计年鉴,并附录在本论文结尾。

2、问题重述以1978年-2009年的财政收入y 为因变量,选取农业总产值x1、工业增产值x2、第三产业增加值x3、社会消费总额x5(以上单位为亿元)、受灾面积x6(单位为万公顷)、人口数x7(万人)、价格指数x8(以1978年为基底)为自变量。

我们首先采用多元线性回归分析。

回归模型:令y =[y 1y 2⋮y 2] ,X =[1x 11⋯x 1p⋮⋱⋮1x n1⋯x np ] ,β=[β0β1⋮βp] ,ε=[ε1ε2⋮εn ] ,模型矩阵形式:y =Xβ+ε为了便于模型的参数进行估计,我们对回归模型做如下基本假设:假设1:自变量x 1, x 2 ,...x p 是确定性变量,不是随机变量,切rank (X )=p +1<n , 即X 为一个满秩的矩阵。

假设2:满足高斯-马尔科夫条件(G-M 条件),即{E (εi )=0,i =1,2,…,nCov(εi ,εj )={σ2 ,i =j 0 ,i ≠j,i,j =1,2,…n.假设3:正态分布的假设条件为{εi ∼N (0 ,σ2) ,i =1,2,…,n ε1 ,ε2 ,…,εn 相互独立在满足上面三个假设满足的条件下,多元线性回归模型的矩阵形式可以写为:{y =Xβ+εε~N (0 ,σ2I n )在此模型下,我们做如下的回归分析:2、 多元线性回归首先对因变量y 与自变量x1、x2、x3、x4、x5、x6、x7、x8的相关分析结果如下表2.1可以看出有x1、x2、x3、x5、x8与y 的相关系数在0.9以上,x4与y 的相关系数0.859,相关程度很大,而x6与y 的相关系数为-0.374,但在初步的建模中我们应把它加进去的。

下面用最小二乘法做y 与这八个变量的多元线性回归,其结果用SPSS 输出如下:表2.2Model R R Square Adjusted R Square Std. Error of the Estimate1 1.000a.999 .999 506.27036a. Predictors: (Constant), 价格指数, 受灾面积, 第三产业增加值, 工业增加值, 农业总产值, 人口数, 建筑业增加值, 社会消费总额b. Dependent Variable: 财政收入表2.3ANOVA bModel Sum of Squares df Mean Square F Sig. Residual 2563096.795 10 256309.679Total 3.366E9 18a. Predictors: (Constant), 价格指数, 受灾面积, 第三产业增加值, 工业增加值, 农业总产值, 人口数, 建筑业增加值, 社会消费总额b. Dependent Variable: 财政收入表2.4Model Unstandardized Coefficientst Sig. Collinearity StatisticsB Std. Error Tolerance VIF (Constant) -11309.177 14075.585 -.803 .440农业总产值-1.083 .136 -7.959 .000 .022 46.275 工业增加值.237 .040 5.898 .000 .009 109.568 建筑业增加值-.075 1.066 -.070 .945 .002 598.787 第三产业增加值-.047 .010 -4.564 .001 .219 4.571 社会消费总额.447 .094 4.756 .001 .001 785.140 受灾面积-.075 .028 -2.704 .022 .534 1.871 人口数.192 .150 1.285 .228 .013 75.342 价格指数-28.932 17.051 -1.697 .121 .003 329.587由上面的输出结果可以得到回归方程为:ŷ=−11309.177−1.083x1+00.237x2−0.075x3−0.047x4+0.447x5−0.075x6 +0.192x7−28.932x8复决定系数为0.999,F-检验高度显著(F=1640.175,P=0.000),说明模型整体拟合效果不错,但是在回归系数的显著性检验中,常数项、x3、x7和x8的回归系数都没有通过(若α=0.05),并且回归方程中有五个系数都是负值,这显然与经济意义不符,说明说用的这八个变量做的回归效果不好。

另外,在表2.4中我们可以看到八个自变量的方差扩大银子VIF分别为:46.275、109.568、598.787、4.571、785.140、1.871、75.342、329.587,除了x4和x6外,其他变量的方差扩大因子都远远超过10,说明存在严重的多重共线性。

另外我们也可以通过共线性分析表看出中间存在严重的多重共线性(见附表1#)。

对于这几个变量之间的共线性,在理论上也是有原因的,三大产业之间有密切的联系,三大产业的收入又直接决定了社会消费总额,同时人口数目和价格指数同时影响消费总额和三大产业的收入。

还有一方面财政收入的主要部分税收主要由流转税和所得税构成,两者与第二第三产业的增加值息息相关,并且都与社会消费总额有关,所以在理论上这些变量间存在着共线性。

鉴于以上分析,我们下面用逐步回归的方法分析:其中α进=0.05 ,α出=0.10,用SPSS软件最终的输出结果(见附表2# )ŷ=5242.644−0.966x1+0.215x2−0.049x4+0.373x5−0.078x6此回归方程复决定系数为0.999,F-检验高度显著(F=2539.362,P=0.000),-说明此模型整体的拟合效果不错,并且所有回归系数均通过了显著性检验(α=0.05).但是这时候得到方程中农业总产值和第三产业增加值的系数都是负值,不符合经济意义。

另外通过共线性检验(结果见附表2# ),这五个的方差扩大因子分别是:26.361、21.887、4.005、81.749、1.585 ,有三个变量的方差扩大因子仍远远超过10,说明还存在严重的多重共线性。

下面我们采取岭回归估计来选取自变量,改进模型。

4、岭回归分析首先都这个八个变量做岭迹分析,岭迹图如下:图3.1在图3.1中的岭迹比较混乱,根据选择变量的原则,首先去掉一直在0附近并趋近与0的x4,然后去掉绝对值较小的x7。

其他变量之间相互影响关系不明显,先保留六个变量{x1,x2,x3,x5,x6,x8},在做岭迹图如下:图3.2在图3.2 中可以看出x 8和x 6的和比较稳定应该删去一个,两者中x 8的相关系数较高保留x 8。

从新做分析:图3.3在图3.3中,当K=0.4以后各个参数开始趋于稳定。

故取K=0.4,由附表4# 建立岭迹回归方程,此时的标准化方程为y ̂′=0.091182x 1′+0.277323x 2‘+0.223396x 3’+0.175187x 5‘+0.150673x 8’化为为标准化的方程为:y ̂=−4159.141068+0.127016x 1+1.206733x 2+0.004023x 3+0.076142x 5+18.642744x 8上述计算结果附表5# ,同时可也得到复决定系数为0.969690,F-检验高度显著(F=83.17936665,P=0.000000)模型整体的拟合效果很好,并且也吸收了五个变量在里面,同时也解决了系数是负数的问题。

相关主题