当前位置:文档之家› 北航-数理统计大作业

北航-数理统计大作业

对中国各地财政收入情况的聚类分析和判别分析应用数理统计第二次大作业学院名称学号学生姓名摘要我国幅员辽阔,由于人才、地理位置、自然资源等条件的不同,各地区的财政收入类型各自呈现出不一样的发展趋势,通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。

本文以中国各地财政收入情况为研究对象,从《中国统计年鉴》中选取2011年期间中国各地财政收入情况为因变量,选取国内增值税、营业税、企业所得税、个人所得税、城市维护建设税、土地增值税、契税、专项收入、行政事业性收费收入、国有资本经营收入和国有资源(资产)有偿使用收入11个可能影响中国各地财政收入的因素为自变量,利用统计软件SPSS,对27个地区的财政收入进行了聚类分析,并对另外4个地区的财政收入进行了判别分析,并最终确定了中国各地区根据财政收入类型的分类情况。

关键词:聚类分析,判别分析,SPSS,中国各地财政收入类型1、引言财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。

财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。

财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。

通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。

本文利用统计软件SPSS,根据各地区的财政收入情况,对北京、天津、河北等27个地区进行聚类分析,并对青海、重庆、四川、贵州4个省市进行判别分析,判断属于聚类分析结果中的哪种财政收入类型。

1.1 聚类分析聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称,它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。

本文采用的是系统聚类分析,它又称集群分析,是聚类分析中应用最广的一种方法,其基本思想是:首先将每个聚类对象看作一类,然后根据对象间的相似程度,将相似程度最高的两类进行合并,并计算合并后的类与其他类之间的距离,再选择相近者进行合并,每合并一次减少一类,直至所有的对象都并为一类为止。

系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。

在本文中进行的是Q型聚类。

类与类之间距离的计算方法主要有以下几种:1)最短距离法(Nearest Neighbor),是指两类之间每个个体距离的最小值;2)最长距离法(Farthest Neighbor),是指两类之间每个个体距离的最大值;3)组间联接法(Between-groups Linkage),是指两类之间个体之间距离的平均值;4)组内联接(Within-groups Linkage),是指把两类所有个体之间的距离都考虑在内;5)重心距离法(Centroid clustering),是指两个类中心点之间的距离;6)离差平方和法(Ward法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。

本文采取的计算方法是最短距离法(Nearest Neighbor)。

1.2 判别分析判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。

判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。

进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。

判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数,使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小。

判别函数一般形式是:Y = a1X1 + a2X2 + a3X3 + ⋯ + a n X n其中:Y 为判别分数(判别值);X1,X2,…,X n为反映研究对象特征的变量;a1,a2,a3,⋯,a n为各变量的系数,也成为判别系数。

此处讨论的是线性判别函数。

关于线性判别分析的研究应追溯到Fisher在1936年发表的经典论文(Fisher R A. The use of multiple measurements in taxonomic problems),其基本思想是选择使得Fisher准则函数达到极值的向量作为最佳投影方向,从而使得样本在该方向上投影后,达到最大的类间离散度和最小的类内离散度。

在Fisher思想的基础上,Wilks和Duda分别提出了鉴别矢量集的概念,即寻找一组鉴别矢量构成子空间,以原始样本在该子空间内的投影矢量作为鉴别特征用于识别。

1970年Sammon提出了基于Fisher鉴别准则的最佳鉴别平面的概念。

随后,Foley和Sammon进一步提出了采用一组满足正交条件的最佳鉴别矢量集进行特征抽取的方法。

1988年Duchene和Leclercq给出了多类情况下最佳鉴别矢量集的计算公式。

2001年Jin和Yang 从统计不相关的角度,提出了具有统计不相关性的最优鉴别矢量集的概念。

与F-S鉴别矢量集不同的是,具有统计不相关性的最优鉴别矢量是满足共轭正交条件的,该方法被称为不相关的鉴别分析或Jin-Yang线性鉴别法。

2、数据整理2.1影响因素的选择影响各地区财政收入的因素是多方面的,选取如下指标作为本文分析的基础指标:X1为国内增值税(万元);X2为营业税(万元);X3为企业所得税(万元);X4为个人所得税(万元);X5为城市维护建设税(万元);X6为土地增值税(万元);X7为契税(万元);X8为专项收入(万元);X9为行政事业性收费收入(万元);X10为国有资本经营收入(万元);X11为国有资源(资产)有偿使用收入(万元);2.2原始数据数据来源于2012年国家统计局出版的《中国统计年鉴》(2011年数据)。

如表1所示为北京、天津等27个城市的财政收入数据,其中单位是万元,表2是国内另外4个地区的财政收入数据,单位为万元。

表1 国内27个地区财政收入地区国内增值税营业税企业所得税个人所得税城市维护建设税土地增值税契税专项收入行政事业性收费收入国有资本经营收入国有资源(资产)有偿使用收入新疆96.7 209.84 63.43 38.34 41.26 13.05 21.86 46.39 36.57 3.95 15.41 青海22.93 45.66 14.62 4.45 7.83 0.68 2.32 19.56 5.4 0.25 2.75甘肃48.95 110.05 28.57 14.06 23.62 5.46 8.82 84.84 37.69 4.98 13.02 宁夏24.4 80.11 24.17 7.5 11.23 3.05 10.03 11.55 16.55 1.01 6.313、聚类分析结果对表1中北京、天津等27个地区进行财政收入类型的聚类分析。

将这些数据导入SPSS,依次选择分析→分类→系统聚类分析,进行变量的设置,如图1所示,聚类方法采用“最邻近元素”,另外将聚类数设置为4。

图1 聚类分析设置设置完成后点击【确定】,软件即自行算出分析结果。

如下所示:3.1案例处理汇总表2显示了有效的实力数目,无效的实例数目和总的实例情况。

由此可知,27个地区的数据均为有效数据。

3.2聚类表由表3可知,SPSS聚类分析一共分26步(27个样本)完成,每步将两个类合并成一个新类。

群集组合中给出了当前步合并的两类观测量号。

表3 聚类表阶群集组合系数首次出现阶群集下一阶群集 1 群集 2 群集 1 群集 21 7 8 4630.556 0 0 22 7 20 5346.943 1 0 33 7 27 5426.809 2 0 54 12 16 5650.038 0 0 75 7 14 7003.298 3 0 66 7 22 8294.062 5 0 127 12 17 8731.527 4 0 88 3 12 8811.104 0 7 109 4 5 10394.641 0 0 1210 3 13 11636.871 8 0 1311 2 18 11757.862 0 0 1312 4 7 12476.832 9 6 1513 2 3 13526.981 11 10 1614 21 23 14892.680 0 0 1515 4 21 17562.339 12 14 1616 2 4 21320.529 13 15 1717 2 25 22153.830 16 0 1918 6 26 33663.812 0 0 1919 2 6 34050.355 17 18 2120 1 9 46014.039 0 0 2321 2 24 50694.007 19 0 2422 10 19 103113.630 0 0 2623 1 11 103796.939 20 0 2524 2 15 135852.273 21 0 2525 1 2 155863.368 23 24 2626 1 10 298641.313 25 22 0表4给出了各地区的分类情况:第一类:北京、上海、浙江;第二类:天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、安徽、福建、江西、河南、湖北、湖南、广西、海南、云南、西藏、陕西、重庆、四川、贵州;第三类:江苏、广东;第四类:山东。

群集成员案例 4 群集1:北京 12:天津 23:河北 24:山西 25:内蒙古 26:辽宁 27:吉林 28:黑龙江 29:上海 110:江苏 311:浙江 112:安徽 213:福建 214:江西 215:山东 416:河南 217:湖北 218:湖南 219:广东 320:广西 221:海南 222:云南 223:西藏 224:陕西 225:重庆 226:四川 227:贵州 2图2 群集图3.5树状图图3 树状图由上我们可以看出,第一类是北京、上海和浙江,它们的财政收入很高。

除了国有资本经营收入为负值以外,其它方面收入相比于其它地区都是很高的,所以把它们划为第一类;第二类是天津、河北等大部分地区,其财政收入有的方面比较高,有的方面比较低,总的财政收入不高;第三类是江苏和广东,它们的财政收入无论从哪个方面几乎都是最高的,与第一类不同的是,其国有资本经营收入远高于其他地区,广东、江苏都属于东部沿海省份,是沿海经济发达的省份,所以如此划分是合理的;第四类是山东,它虽然没有第一类和第三类的财政收入高,但每个方面的收入都是比较高的,所以自成一类。

相关主题