当前位置:文档之家› 数理统计大作业

数理统计大作业


354.26 417.17 517.75 758.10 926.36 1150.49 1463.18 1701.42 1822.05 1895.21 2201.73 2378.04 2580.90 3009.92 3812.31 4704.28 5485.96 6515.32 7891.54 7983.86
500.00
0.00 0.00
500.00 1000.00 1500.00 2000.00 2500.00
农业总产值 图2-2 财政收入与农业总产值关系散点图
2500.00
2000.00
财 1500.00 政 收 入 1000.00
500.00
0.00 0.00
2000.00
4000.00 6000.00 建筑业产值
Y
X1
财政收 工业总产


(亿元) (亿元)
81.15 90.66 101.17 144.21 182.16 214.12 258.57 297.34 341.86 367.20 397.60 448.40 544.86 634.94 778.33 1035.20 1223.46 1528.92 1824.00 2020.77
226.79 240.55 246.22 243.73 316.07 392.80 420.41 411.93 422.92 458.04 523.47 573.78 666.57 897.90 1352.62 1607.13 1852.61 2553.85 3841.85 2961.13
画出各个自变量与因变量之间的散点图,初步分析它们之间的线性关系。散 点图如下:
2 初始模型的建立及数据分析
2.1 初始模型的建立
本模型是研究 1990 年至 2009 年河北省财政收入与主要影响因素之间的定量
关系。 以财政收入 Y(亿元)为因变量。自变量如下:X1 为工业总产值(亿元);
X2 为农业总产值(亿元);X3 为建筑业总产值(亿元);X4 为人口数(万人);X5
为就业人数(万人);X6 为受灾面积(千公顷);X7 为社会消费品零售总额(亿元);
2500.00
2000.00
财 1500.00 政 收 入 1000.00
500.00
0.00 0.00
2000.00 4000.00 6000.00 8000.00 10000.00
工业总产值
图2-1 财政收入与工业总产值关系散点图
2500.00
2000.00
财 1500.00 政 收 入
1000.00
选择“最优”回归方程的方法有多种多样,具体包括: ⑴ 全部比较法:从所有可能的因子组合的回归方程中选择最优方程。这种 方法固然可以找到一个最优者,然而当因子众多时,不仅计算繁冗,而且费用也 大,在实际中是不宜采用的。 ⑵ 向后剔除变量法(Backward Elimination):从包含全部因子的回归方程 中,逐次剔除不显著因子,也称为“只出不进法”。这种方法在因子不多而且不 显著因子也不多的情况下可以采用,但是因子众多时,特别是当不显著因子比较 多时,其计算量也很大。 ⑶ 向前挑选变量法(Forward Selection):从一个因子开始,逐个引入回 归方程,因子在引入后概不剔除,也称为“只进不出法”。这种方法对已经引进 的因子在建立过程中变得不很重要的情况没有反映。 ⑷ 逐步回归法(Stepwise Regression):又称为“有进有出法”。这种方法
1000.00
2000.00
3000.00
4000.00
受灾面积 图2-6 财政收入与受灾面积关系散点图
5000.00
2500.00
2000.00
财 1500.00

收 入 1000.00
500.00
0.00 0.00
1000.00 2000.00 3000.00 4000.00 5000.00 6000.00 7000.00 社会消费品零售总额
2500.00
2000.00
财 1500.00 政 收 入 1000.00
500.00
0.00 0.00
1000.00
2000.00 就业人数
3000.00
图2-5 财政收入与就业人数关系散点图
4000.00
2500.00
2000.00
财 1500.00 政 收 入 1000.00
500.00
0.00 0.00
在逐个将因子选入回归方程的过程中,如果发现先前被引入的因子在其后由于某 些因子的引入而失去其重要性时,可以从回归方程中随时予以剔除,直到最后被 选入的因子对因变量都有显著影响为止。
3.4 逐步回归分析法
先对全部自变量按其对 Y 影响程度的大小排队,从大到小逐个依次引入回归 方程,并随时检验,及时将由于引入新自变量而变得作用不显著者剔除,剔除后 再引入新变量,再检验,再剔除直至最后。
3 逐步回回分析概述
3.1 回归分析
回归分析是一种非常实用的统计方法,研究变量与变量之间定量的相关关系, 寻找变量之间的数学表达式,并且利用概率统计的知识,对此关系进行分析,来 判别所建立关系表达式的有效性。回归分析应用很广,可利用建立的经验公式进 行预测或控制等等。
3.2 线性回归分析
线性回归分析是描述一个因变量与一个或多个自变量之间的线性依存关系。
关键词: 逐步回归;河北省财政收入;线性回归
1 引言
财政收入是指一个国家或地区财政参与社会产品分配所取得到的收入,是实 现一个国家或地区职能的财力保证。影响财政收入的因素有很多,包括工业总产 值、农业总产值、建筑业总产值、社会商品零售总额、人口数、受灾面积等等。 财政收入受到上述诸多因素的影响,而其中有些自变量对问题的研究可能并不重 要,有些自变量数据的质量可能很差,有些变量可能和其它变量有很大程度的重 叠。如果用回归模型把这些变量都包含进来不但会使模型计算复杂,而且往往会 扩大估计方差,降低模型精度,直接影响到回归方程的应用。另外,选进太多的 自变量又会造成共线性的存在。因此在应用回归分析处理实际问题时,一个重要 的问题就是如何选择回归自变量。目前常用的是逐步回归分析方法,即将变量一 个个的引入,能够引入的前提是该变量的偏 F 检验是显著的。同时每引入一个 新变量又要对原来存在的变量进行逐个检验,将不显著的变量从回归模型中剔除ห้องสมุดไป่ตู้ 最终建立起一个最优的回归方程。
4 运行 SPSS 软件逐步回归分析
以河北省财政收入为因变量,工业总产值、农业总产值、建筑总产值、人口 数、就业人数、社会消费品零售总额、货物进出口总额为自变量,使用 SPSS 软 件进行逐步回归法(stepwise)线性回归分析。将数据输入至 SPSS 软件的 Data Editor 表中,选择分析选项的回归>线性命令。将河北省财政收入设置为因变量 (Dependent),其余各影响因素设置为自变量(Independent(s)),选择统计方法 (Method)为逐步回归法(Stepwise)。逐步回归显著性进入值(Stepwise Method Criteria>Use Probability of F>Entry)为 0.05,移除值(Removal)为 0.10,即 F 值小于等于 0.05 进入模型,大于等于 0.1 移出模型。然后进行回归计算,产 生分析报告。
X8 为货物进出口总额。初始模型建立如下:
Y=b0+b1X1+b2X2+b3X3+b4X4+b5X5+b6X6+b7X7+b8X8
(2-1)
2.2 数据分析
本文所用数据来自《河北统计年鉴 2010》,其中包括: 1-11 地区生产总值构成 2-2 总人口及人口自然变动 2-5 按三次产业分的就业人员及构成(年底数) 4-1 财政收支总额及增长速度 7-22 受灾情况 12-1 社会消费品零售总额 13-1 海关进出口贸易总额
图2-7 财政收入与社会消费品零售总额关系散点图
2500.00
2000.00
财 1500.00 政 收 入 1000.00
500.00
0.00 0.00
1000.00
2000.00
3000.00
4000.00
5000.00
货物进出口总额
图2-8 财政收入与货物进出口总额关系散点图
从散点图中可以初步看出,河北省财政收入与工业总产值、农业总产值、建 筑业总产值、人口数、就业人数、消费品零售总额、进出口贸易总额这些因素都 有较好的线性关系。而财政收入与受灾面积之间没有线性关系,可在逐步回归之 前将其去除。
3.3 多元线性回归分析方法比较与选择
应用多元线性回归方法对社会经济现象的数据进行统计分析或者预测具有 实际的研究价值。但是由于各个变量之间关系的复杂性,如何在为数众多的许多 个影响因素中选择对所关心的因素具有显著影响的各个因素,并且不包含对因变 量的影响不显著的因素是一个很有实际意义的问题。具有这种优点的回归方程, 被称为“最优”回归方程。
8000.00 10000.00
图2-3 财政收入与建筑业产值关系散点图
2500.00
2000.00
财 1500.00 政 收 入 1000.00
500.00
0.00 6000.00 6200.00 6400.00 6600.00 6800.00 7000.00 7200.00 人口数
图2-4 财政收入与人口数关系散点图
数理统计大作业(一)
河北省财政收入的逐步回归模型
指导教师 孙海燕 院系名称 材料科学与工程学院(1 系) 学 号 ZY1101219 学生姓名 张玉
2011 年 11 月 12 日
摘要
随着我国经济的高速发展,河北省的财政收入也随之提高。本文以河北省财 政收入为研究对象,选取工业总产值,农业总产值,建筑业总产值,社会消费品 零售总额,人口数,就业人数,受灾面积,货物进出口总额为影响因素,利用统 计学中的逐步回归方法分析它们之间的线性影响关系,从而建立逐步回归模型, 用于分析预测未来的财政情况,从而制定出相应的政策及解决方案。
相关主题