当前位置:文档之家› 基于SPSS的聚类分析在行业统计数据中的应用

基于SPSS的聚类分析在行业统计数据中的应用

基于SPSS的聚类分析在行业统计数据中的应用摘要基于SPSS的聚类分析在行业统计数据中的应用改革开放以来,随着中国的经济高速发展,各行膈应人都已经有了飞跃进步。

科技在现在的经济发展中起着越来越重要的作用。

目前,人民已经在总体上达到了小康水平,我国也已经成为了世界上最有潜力的大国。

中国的经济离不开改革开放,离不开科技的发展,离不开各行各业努力工作的人民的辛勤劳动。

从十九世纪五十年代以来,中国已经陆续的完成了是一个“五年计划”,在这五十多年里,中国所取得的成就是全世界有目共睹的,中国的经济得到了非常快的增长,为国民经济的发展打下了非常坚实的基础。

本文的研究对象是“中经网数据统计库”中的行业统计数据,数据包括含有年份的和地区的统计数据。

本文建立的主要模型是主成分-聚类模型。

该模型的主要思想是将数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自主分类,产生多个分类结果。

本文的研究将采用两种方法进行聚类分析:一种是系统聚类法,另一种是K-聚类法(快速聚类法)。

通过这两个模型,对各地区的的经济进行划分,能更好的了解中国的经济信息。

关键词:聚类分析;SPSS;系统聚类法;K-聚类法。

AbstractThe Application of Clustering Analysis Based on SPSS inIndustry Statistical DataSince the reform and opening up,every industry has got a leap in progress with the rapid development of China’s rapid economic.Technology and science play an important role in economic development.People have reached a comfortable level in general,and China has become ane of the most potential countries in the world.The economy of China is inseparable from the reform of China’s development and technology.The economy is also inseparable from all walks of life to work hard.China has successively completed some five-years plans in these fifty years since the year of 1850.China’s achievements are obvious to all around the world in the fifty years,and China’s ec onomy has grown fast,and laid a very solid foundation for the development of the national economy.The object of this paper is CEInet Statistics Database.The data contains the year’s and region’s statistics. The main model established in this paper is the Principal Component Analysis-Clustering model.The model idea of this model is the data according to its many characteristics and the degree of closeness,in the absence of prior knowledge classification independently,produce multiple classification results.The research will use two kinds of method for clustering analysis,one is the system clustering method,the other is a K-clustering method.By these two models,can better understand China’s economic information.Key words:Clustering Analysis;SPSS;System clustering;A K-clustering。

目录第1章绪论 (2)1.1.选题背景 (2)1.2数据来源 (2)1.3本文主要工作 (2)第2章SPSS软件简介 (3)第3章聚类分析 (4)3.1简介 (4)3.2系统聚类法 (4)3.3k均值聚类法 (4)3.4聚类法分析的优缺点 (4)第4章聚类分析的应用 (6)4.1数据输入 (6)4.2统计数据-系统聚类分析 (6)4.3统计数据-k均值聚类分析 (8)第5章总结 (10)参考文献 (11)致谢 (12)第1章绪论1.1.选题背景目前,社会主义市场经济体制在社会中发挥着重要的作用。

市场和宏观调控互相协调,相得益彰,各种体系发展日益完善,经济形势发展越来越好,产生的价值越来越大。

到2020年,我国会建立起比较成熟的社会主义市场经济体制。

2012年一月份至九月份,中国经济增长速度是已经回落到7.7%。

相较于中国过去30年接近10%的增长速度,十一五期间更是接近11.2%的增长速度。

因此在10%或者8%以下,显然是经济增长缓慢。

另外,中经数据统计发布的各种宏观数据显示,中国经济增长速度已经开始缓慢。

1.2数据来源《中经网统计数据库》是由国家信息中心中经网凭借与国家发改委、国家统计局、海关总署、各行业主管部门以及其他政府部门的良好合作关系,经过长期数据积累并依托自身技术、资源优势,通过专业化加工处理组织而成的一个综合、有序的庞大经济统计数据库群。

本文从中经网选取个地区最近三年各季度城镇工资总额来进行分析,该部分反映我国劳动经济方面的基本情况,其中各地区包括31个省、自治区、直辖市。

1.3本文主要工作本文的研究对象是“中经网统计数据库”中个地区城镇工资总额,总所周知,各地区由于地理,文化的差异,其各地区的工资水平以及发展程度是不一样的。

分析各地区的工资问题,可以为我们毕业生提供宏观的就业位置,给出一个合理的基准判断。

本文就是针对按照地区各季度城镇工资总额等数据,对中国各省份地区进行聚类分析,建立聚类分析【1】模型。

聚类分析是数据挖掘【2】中的一种重要的算法,他将生活中的数据对象进行数据分析,将性质相似或者相近的对象放在一个类中,将性质不同的对象放在不同的类中,研究聚类分析,使得我们从复杂的现实生活中提取有用的信息,从而更好的分析数据,反应生活中的社会信息。

本文建立的主要模型是系统聚类分析模型和K-均值聚类分析模型,该模型主要思想是将数据按照亲疏的不同进行聚类,一步一步聚类,最终聚类成一个大类。

然后对聚类过程中的步骤进行分析,从而得到聚类结果。

第2章SPSS软件简介SPSS【3】是现代统计软件的典型代表,其全称:Statistical Package for the Social Sciences,即社会科学统计软件包。

世界上公认数据分析软件有三个,分别是SAS、SPSS和SYSTAT。

SPSS软件作为其中的一个统计学软件,有着强大的功能和特点。

SPSS统计学软件有以下几个特点。

(1)利用SPSS软件能够实现很多的类似于微软的操作,列如可以将数据录入到SPSS中,可以将资料进行编辑,可以将数据进行管理,可以像EXCEL一样进行报表制作等。

(2)SPSS统计学软件的统计功能,可以实现“报告”“描述统计”“表”“比较均值”“一般线性模型”“广义线性模型”“相关”“回归”等功能。

(3)SPSS数据输入和输出可以选取多种格式如:sav、xls等等。

第3章聚类分析3.1简介聚类分析【4】是数据挖掘中一种重要的算法。

它主要是将具有相同或者相似性质的对象放在同一个集合中,把具有不同性质的对象放在不同的集合中。

聚类分析在商业、生物、教育等很多行业有着重要的应用。

正是有了类似分析这样的数据挖掘算法,我们才从庞大的社会信息中提取出对我们有用的信息,更好的反馈社会。

3.2系统聚类法系统聚类法分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。

在本文中Q型聚类中类与类之间距离的计算方法主要有以下几种:(1)最短距离法,是指两类之间每个个体距离的最小值;(2)最长距离法,是指两类之间每个个体距离的最大值;(3)组间联接法,是指两类之间个体之间距离的平均值;(4)组内联接法,是指把两类所有个体之间的距离都考虑在内;(5)重心距离法,是指两个类中心之间的距离;(6)离差平方和法,是指同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。

3.3k均值聚类法k均值类法【5】的工作原理:该算法首先确定初始的聚类中心,一般是随机的选定K个对象,然后计算各个样本到聚类中心的距离,从而把样本或者对象归到离它最近的聚类中心所在的类。

计算完所有样本后,重现计算聚类中心,重新对样本或者对象进行类,如果相邻两次的聚类中心没有变化或者两侧的聚类中心之间的差距已经收敛,则聚类结束。

3.4聚类法分析的优缺点聚类分析是数据挖掘中的经典算法之一。

聚类分析的优点如下:(1)聚类分析能够很好的反映类之间的关系,研究聚类分析能够研究数据背后的对象的性质,能够对我们了解这些对象有着重要的作用。

(2)聚类分析能够使用聚类中心来很好地体现该类的性质。

比较不同类的聚类中心能够发现不同类的聚类中心所代表的意义不同。

(3)聚类分析能够帮助我们从数据中提取重要的信息,聚类分析可以反映数据信息的有效性。

聚类分析的缺点如下:(1)以k均值聚类算法为例,初始聚类中心随机设定,这就使研究者在设定聚类中心时产生随机性。

(2)聚类分析的类数k的确定。

在聚类分析算法中,一般人为的设定k值。

相关主题