当前位置:文档之家› 北航数理统计聚类分析大作业

北航数理统计聚类分析大作业

应用数理统计大作业(二)
部分省市经济类型的聚类和判别分析
学院:学号:姓名:班级:
机械工程及自动化学院
SY1007???
XXXXX
51班
2011年1月7日
目录
摘要 (1)
符号说明 (1)
0 引言 (1)
1 源数据的提取 (1)
2 聚类分析过程 (2)
2.1 基本概念 (2)
2.2 聚类分析过程 (2)
2.3判别分析 (5)
2.4分类结果分析 (7)
3 结论 (7)
参考文献 (8)
部分省市经济类型的聚类和判别分析
摘要
一个省市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等息息相关,本文利用统计软件SPSS,对北京市等13省市2008年的地区生产总值(亿元)、职工人均工资(元)、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素,进行聚类分析,得出了分类结果,分类结果和我们的直观判断相吻合。

本文所进行的分析结果在一定程度上反映了这些省市的经济类型和经济特点。

关键词:经济类型,聚类分析,判别分析,SPSS
符号说明
符号说明
X1 地区生产总值
X2职工人均工资
X3第一产业在国民生产总值中占的比重
X4第二产业在国民生产总值中占的比重
X5第三产业在国民生产总值中占的比重0 引言
随着中国经济迅速发展,各个省市自治区的经济呈现出各自不同的发展态势。

通过研究各省市的经济发展状况和经济类型对于正确认识我国的经济发展情况具有重要意义。

一个省自治区直辖市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等因素息息相关,本文利用功能强大的统计软件SPSS,对北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、河南省、广东省、四川省和山东省2008年的地区生产总值(亿元)、职工人均工资(元)、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素,进行聚类分析,结果北京市和天津市属于一类,河北省、浙江省和河南省属于一类,辽宁省、安徽省、湖南省、湖北省、四川省属于一类,江苏省、山东省、广东省属于一类,这个结果和我们的直观判断一致。

这个结果也充分说明了本文进行的分析是合理的,具有一定的科学性。

1 源数据的提取
本文所用的数据全来自2009年出版的《中国统计年鉴》,从中提取了有关北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、
河南省、广东省、四川省和山东省总计13省2008年的五种数据。

分别为:地区生产总值(亿元)X1、职工人均工资(元)X2、第一、二、三产业(X3、X4、X5)各自在国民生产总值中占的比重。

分析用到的源数据如表1所示。

表1 分析用到的源数据
地区生产总值
(亿元)
职工人均工资
(元)
第一产业第二产业第三产业
北京10488.03 56328 1.1 25.7 73.2 天津6354.38 41748 1.9 60.1 37.9 河北16188.61 24756 12.6 54.2 33.2 辽宁13461.57 27729 9.7 55.8 34.5 江苏30312.61 31667 6.9 55.0 38.1 浙江21486.92 34146 5.1 53.9 41.0 安徽8874.17 26363 16.0 46.6 37.4 湖北11330.38 22739 15.7 43.8 40.5 湖南11156.64 24870 18.0 44.2 37.8 河南18407.78 24816 14.4 56.9 28.6 广东35696.46 33110 5.5 51.6 42.9 四川12506.25 25038 18.9 46.3 34.8 山东31072.06 26404 9.7 57.0 33.4
2 聚类分析过程
2.1 基本概念
聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称,它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。

本文采用的是系统聚类分析,它又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。

判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。

判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。

2.2 聚类分析过程
进入SPSS18.0程序,选择分析→分类→系统聚类,进行系统聚类分析
(Hierarchical Cluster Analysis),引入的变量是X1至X5。

采取对样品(个案)进行聚类,即Q型聚类分析(对研究对象本身分类)。

聚类方法使用类间平均链锁法,距离测量技术选择距离平方,即两观察单位间的距离为其值差的平方和,该技术用于Q型聚类,得出以下计算结果。

法为默认设置,即欧氏距离平方值。

表3显示了各地区经济类型的相近程度,越接近于1,说明相近程度越高。

表3 相似矩阵
表4所列各项的意义如下:阶-----聚类步骤号;群集组合-----在某步中合并的个案;系数-----距离或相似系数;首次出现阶群集-----新生成聚类;下一阶-----对应步骤生成的新类将在第几步与其它个案或新类合并。

图1 分析得到的树状结构图
图2 聚类分析结果
图2显示了聚类分析结果。

北京市和天津市分为一类,河北省、浙江省和河南省分为一类,辽宁省、安徽省、湖南省、湖北省、四川省分为一类,江苏省、山东省、广东省分为一类。

2.3判别分析
进入SPSS18.0程序,选择分析→分类→判别,采用自变量全进入模型来进行判别分析,由于在聚类分析中将13省市的经济类型分为四类,定义分组变量的取值范围为1~4。

得到以下分析结果。

示。

1234
C1= -720.87-0.001X1+0.021X2+19.11X3+8.617X4
C2= -606.806+0.005X1+0.017X2+18.654X3+7.894X4
C3= -565.325+0.003X1+0.017X2+18.385X3+7.657X4
C4= -680.994-0.009X1+0.016X2+18.963X3+7.858X4
下图显示的是所有组的散点图,显示的分类结果和聚类分析基本相同。

图3 散点图
2.4分类结果分析
北京和天津同为直辖市,经济结构相对于别的省份来说相差不大,从原始数据中可以看到北京和天津虽然在各项因素中与北京有一定的差异,但是别的省和北京比差距更大,所以把北京和天津归到一类还是比较合理的。

广东、江苏和山东同为国内生产值大省,它们的经济结构几乎相同,所以把它们归为一类是十分合理的。

安徽、湖南、湖北、四川同为南方农业大省,国民生产总值中,第一产业(农林牧渔)所占的比重较大,指标相似,但从原始数据也可以看到这几个省份在人均国民生产总值和职工平均工资上都与其它省份有较大差距,经济相对来说与珠三角地区有较大差距,所以把他们归为一类就理所当然了。

河北、河南和浙江的地区生产总值相近,河南、河北第二产业所占比例基本相同,它们的经济也可以归为一类。

从以上可以看出以上得到的聚类分析结果和我们的直观判断相同,说明采用本文的指标和聚类分析的方法来给各省的经济类型分类是正确的。

3 结论
本文通过运用数理统计的聚类分析的基本知识解决了一个实际问题,即运用聚类分析采用自定义的经济指标划分部分省市的经济类型,通过本文可知聚类分析和判别分析的结果和我们的直观判断吻合,这说明本文采用的经济指标和分析方法都是正确的。

参考文献
[1]孙海燕,周梦,李卫国,冯伟. 应用数理统计[M]. 北京:北京航空航天大学数
学系, 1999.
[2]张建同,孙昌言. 以Excel和SPSS为工具的管理统计[M]. 北京:清华大学出
版社,2002.
[3]国家统计局.2009年中国统计年鉴[M]. 中国统计出版社,2009.
[4]戚珉,王霏. 应用聚类分析对部分省市经济类型的分类研究[J]. 科技信息,
2006,(10):70-72.。

相关主题