编号:201431120134 本科毕业论文题目:方差分析在农业中的应用院系:数学科学系******学号:**********专业:信息与计算科学年级:2011级指导教师:陈*职称:助教完成日期:2015年5月摘要近年来,河南省城镇由于商业,工农业,教育等方面的发展,带动了各城镇居民家庭消费支出.为探讨河南省城镇居民的消费结构,本文应用SPSS统计分析软件,对河南省18个地市级城市居民的消费结构进行了聚类分析,结果表明,河南省的18个城市按照消费结构的不同主要分为三大类:较高层次消费,中等层次消费,较低层次消费.关键词:消费结构;相关分析;聚类分析AbstractIn recent years, due to the development of commercial, industrial and agricultural, and education and so on, the town of Henan province drives the consumption expenditure of urban households. In order to study the consumption structure of urban residents in Henan province, in this paper, we will use cluster analysis on 18 prefecture-level city residents' consumption structure of Henan province through SPSS statistical analysis software, and the results show that, according to the consumption structure, the 18 cities in Henan province can be divided into three different categories: high level consumption, moderate level consumption, low level consumption.Keywords: consumption structure; correlation analysis; cluster analysis目录摘要 (I)Abstract (I)1 引言 (1)2 预备知识 (3)2.1聚类分析的概念 (3)2.2聚类分析的原理 (3)2.3聚类分析的模型 (4)2.4聚类分析的特征 (6)2.5系统聚类法 (7)3河南省城镇居民消费结构的实证研究 (8)3.1指标选取 (8)3.2数据来源与说明 (8)3.3消费结构指标的相关分析 (8)3.4河南省城镇居民消费结构的聚类分析 (11)4 结论与建议 (15)参考文献 (17)致谢 (18)1 引言近年来,河南省宏观经济形势发生了重大变化,经济发展速度加快,城镇居民的收入稳定增加,并且在国家连续出台住房、教育、医疗等各项改革措施和实施“刺激消费、扩大内需、拉动经济增长”经济政策的影响下,河南省各地市城镇居民的消费支出也强劲增长,消费结构发生了巨大的变化,结构不合理现象得到了一定程度的调整.我省经济持续快速发展,人民生活水平不断提高,消费市场规模不断扩大,消费加速转型.由原来的简单的数量增长演变为数量增长与结构调整并行,消费开始升级,由食品—衣着—居住、家庭设备用品及服务、医疗、交通、文化教育、娱乐和旅游产业链不断演化,消费结构向更高层次转变.河南省作为一个重要的经济建设区,经济健康高速的发展,离不开消费市场的稳定发展和消费结构的升级优化.消费结构的合理和居民消费行为的科学文明将对经济的发展有很大的促进作用.消费结构的的变化趋势对经济增长有着很大的关系,合理的消费结构将会对促进我省经济的增长有很大的帮助作用.因此,对消费结构的探讨有利于了解我国居民消费结构的特征,从而制定合理的经济政策,促进经济增长.通过查阅文献及数据对2012年河南省各城镇居民消费结构有了一定的了解,田隽在《中国居民消费结构变化趋势研究》[1]中采用结构分析法和扩展线性支出系统(ELES)模型等方法,量化分析出我国居民消费结构所呈现的总体变化趋势,即从基本生存型消费向享受、发展型消费转变。
将研究视角定位在我国居民消费尤其是城镇居民消费上,着重研究可以量化分析的居民消费结构。
魏宝滨在《中国城乡居民消费结构变动对比分析》[2]中采用定性与定量、静态与动态相结合的分析方法,着重研究了近十年来我国城乡消费结构演变及发展趋势,归纳了城乡消费结构自身特点及差异状况。
运用ELES模型对城乡居民消费倾向、收入弹性、价格弹性进行了研究,并采用灰色系统对城乡消费水平及结构进行预测。
胡丽平、何春花在《河南省城镇居民消费结构变动的实证分析》[3]中运用因子分析模型,对河南省城镇居民家庭人均消费性支出状况进行了实证分析,并提出了拉动河南消费需求的政策建议.虽然关于城镇居民家庭消费支出的研究已取得丰硕的成果,以往的研究也表明,对城镇居民消费结构的研究主要集中在全国及个别省份上,所采用的分析方法及结论也不尽相同,因此,本文拟从以往研究出发,采用多元统计分析中的聚类分析,并借助SPSS统计分析软件[4]建立模型,运用系统聚类法,对我省各个城市居民的消费结构之间的异同进行分析并做比较研究并加以分类,以期发现河南省18个城市在消费结构上的特点和规律,从而提出相关的建议,采取切实有效的措施增加城市居民的可支配收入,提高河南省城市居民的总体消费水平,促进消费结构向着更加健康、合理的方向发展.2 预备知识2.1 聚类分析的概念聚类分析[5]指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程.其目标就是在相似的基础上收集数据来分类.聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性.从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法.传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等.从实际应用的角度看,聚类分析是数据挖掘的主要任务之一.而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析.2.2聚类分析的原理相类似性是定义一个类的基础,不同数据之间在同一个特征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特征标度的多样性,距离度量必须谨慎,它经常依赖于应用,例如,通常通过定义在特征空间的距离度量来评估不同对象的相异性,很多距离度都应用在一些不同的领域,一个简单的距离度量,如Euclidean距离,经常被用作反映不同数据间的相异性,一些有关相似性的度量,例如PMC和SMC,能够被用来特征化不同数据的概念相似性,在图像聚类上,子图图像的误差更正能够被用来衡量两个图形的相似性.将数据对象分到不同的类中是一个很重要的步骤,数据基于不同的方法被分到不同的类中,划分方法和层次方法是聚类分析的两个主要方法,划分方法一般从初始划分和最优化一个聚类标准开始.它的每一个数据都属于单独的类;它的每个数据可能在任何一个类中,Crisp Clustering和Fuzzy Clusterin是划分方法的两个主要技术,划分方法聚类是基于某个标准产生一个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分离性用来合并和分裂类.评估聚类结果的质量是另一个重要的阶段,聚类是一个无管理的程序,也没有客观的标准来评价聚类结果,它是通过一个类有效索引来评价,一般来说,几何性质,包括类间的分离和类内部的耦合,一般都用来评价聚类结果的质量,类有效索引在决定类的数目时经常扮演了一个重要角色,类有效索引的最佳值被期望从真实的类数目中获取,一个通常的决定类数目的方法是选择一个特定的类有效索引的最佳值,这个索引能否真实的得出类的数目是判断该索引是否有效的标准,很多已经存在的标准对于相互分离的类数据集合都能得出很好的结果.2.3聚类分析的模型设我们测得了p 个变量1,,p x x 的n 组数据: 1,,,1,,.t tp x x t n =(2-1)这p 个变量的n 个观测记为n R 中的p 个向量()()1,,p x x ,和以前一样并写成矩阵形式()()11(x )(x ,,x )(x ,,x )ij n p X '===,还称i x 为p 个变量的观测样本. 常用 (1)1221/211(x )(x x )((x )(x x ))n ti i tj j t ij nn ti i tj j t t x r x ===--=--∑∑∑(2-2)来描述变量i x ,j x 间的相关性,并称之为i x ,j x 的相关系数,其中11n i ti t x x n ==∑,11.nj tj t x x n ==∑此外,还常用(2)1221/211()nti tjt ijnn ti tj t t x xrx x ====⋅∑∑∑(2-3)来描述变量i x ,j x 间的相关程度,为和前者区别,我们称(2-3)为i x ,j x 的相似系数.其几何意义就是在n R 中两向量()i x ,()j x 的夹角余弦,如果对(2-2)式引进向量表示()()1,,i i ni i i x x x x x '=--,()()1,,j j nj j j x x x x x '=--,则式(2-2)也表示两向量的夹角余弦.两者都是从不同角度描述变量i x ,j x 的相近程度.有时为了简单,也可用两个变量i x ,j x 的观测向量在对应分量上的同号率(数符相同的比值)来衡量它们的相似程度,即设()i n x +=和()j x 相应分量ti x 和tj x 同号的个数, ()i n x -=和()j x 相应分量ti x 和tj x 异号的个数,则同异号差率为()3ij n n r n n +-+--=+, (2-4)我们称()3ij r 为变量i x ,j x 的非参数相关系数.相应的,设()'i n x +=和()j x 相应分量ti x 和tj x 同号的个数, ()'i n x -=和()j x 相应分量ti x 和tj x 异号的个数,则同异号差率为()4.ij n n r n n +-+-''-=''+(2-5)我们把()4ij r 叫做变量i x ,j x 的非参数相似系数.当变量i x ,j x 的观测向量各分量均大于零时,还常用以下的相似系数,()()()()()()5,,116,11min ,max ,,2min ,.n nij ti tj ti tj i j i j t t n nij ti tjti tj i j t t r x x x x r x x x x ====⎧=⎪⎪⎨⎪=+⎪⎩∑∑∑∑(2-6) 以上各相关系数(或相似系数)具有以下两个共同性质:1.1ij r ≤,对一切i ,j ;2.ij ji r r =,对一切i ,j .而且ij r 越接近 1,i x ,j x 越相关或相似,ij r 越接近零,i x ,j x 越不相关或不相似.特别地,对于()1ij r 和()2ij r 还有,当()11ij r =±时还有()()i j x ax =((2)1ij r =±时有()i j x ax =),即()i x 与()j x (()i x 与()j x )是有通常的线性相关;当()10ij r =时()i x ,()j x 为通常的正交关系((2)0ij r =时()i x ,()j x 为通常的正交关系).还可以用其他方法来定义变量的相关程度,但一般都需要满足以上两个条件.下面我们用变量的样本来描述这一概念.取()1,,x n X x '=,这两个点(或称为向量)i x ,j x 除了可用相似(或相关)来衡量它们的相近程度外,还可用距离来衡量.最常用的距离有以下几种:(1) 欧式距离.沿用上面的记号,定义i x ,j x 的欧氏距离为:()()1/2221p ijit jt t d x x =⎛⎫=- ⎪ ⎪⎝⎭∑.(2-7) (2) Minkowski 距离.定义为()1/q1q pq ijit jt t d x x =⎛⎫=- ⎪ ⎪⎝⎭∑, (2-8) 其中q 为一正整数.(3) Chebyshev 距离.定义为()1max c ij it jtt pd x x ≤≤=-. (2-9)(4) 马氏距离.定义为()()()1m ij i j i j d x x V x x -'=--, (2-10)其中1V X HX n '=,这里111n H I n'=-,而且要求V 是可逆的. (5) 兰氏(Lance Willams )距离.定义为()1pit jtl ij t it jt x x d x x =-=+∑.(2-11) 这种距离一般在{},,1,,it jt x x t p =都同号情况下使用以上各种距离ij d 定义可类似用于队的列,以衡量两个变量i x ,j x 的相似程度ij d 越小意味着i x ,j x 越相近,特别地,如果0ij d =,则表示两者在相应的距离意义下完全相同.ij d 越大,意味着两者相差越远.还有一点值得注意的是,在泛函分析中定义的距离要求满足距离公理,即满足:(1) 0ij d ≥,当且仅当i j x x =时0ij d =; (2)ij ji d d =,对一切i ,j ; (3)ij ik kj d d d ≤+,对一切i ,j ,k . 在聚类分析中引进的距离并不要求这一点. 2.4聚类分析的特征聚类分析是根据事物本身的特性研究个体的一种方法,目的在于将相似的事物归类.它的原则是同一类中的个体有较大的相似性,不同类的个体差异性很大.这种方法有三个特征:(1) 适用于没有先验知识的分类.如果没有这些事先的经验或一些国际标准、国内标准、行业标准,分类便会显得随意和主观.这时只要设定比较完善的分类变量,就可以通过聚类分析法得到较为科学合理的类别;可以处理多个变量决定的分类.例如,要根据消费者购买量的大小进行分类比较容易,但如果在进行数据挖掘时,要求根据消费者的购买量、家庭收入、家庭支出、年龄等多个指标进行分类通常比较复杂,而聚类分析法可以解决这类问题;(2) 聚类分析法是一种探索性分析方法,能够分析事物的内在特点和规律,并根据相似性原则对事物进行分组,是数据挖掘中常用的一种技术;(3)聚类分析简单、直观,主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析;不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;(4)聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响;研究者在使用聚类分析时应特别注意可能影响结果的各个因素;异常值和特殊的变量对聚类有较大影响.2.5系统聚类法系统聚类法是目前用得最多的一种.其基本思想是:一开始将要归类的n个变量(或个体)各自看成一类,然后按事先规定好的方法计算各类之间的归类指标(如某种相关系数或距离),根据指标值大小衡量两两之间的关系密切程度,将关系最密切n-类;又按事先规定的方法重新计算各类之间的的两类并成一类,其余不变,即得1归类指标(仍为某种相关系数或距离),又将关系最密切的两类并成一类,其余不变,n-类;如此进行下去,每次归类都减少一类,直到最后,n个变量(或个体)即得2都归成一类为止.这一归类可以用一张聚类图(或称谱系图)形象地表示出来.由聚类图来进行分类.可以看到,这种系统归类过程,显然与计算类与类之间的归类指标是有关系的,同时也与归类有关系.3河南省城镇居民消费结构的实证研究3.1 指标选取目前河南省城镇由于商业、工农业、教育等方面的发展,带动了各城镇居民家庭消费支出,而影响居民人均消费支出的因素是非常复杂的.国内外很多学者根据不同的研究需要选取了不同的因素,但这些因素都有相似之处.根据西方经济学理论原理结合国内外学者对此的研究成果,本文选取了服务型消费支出、食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信、教育文化娱乐服务、杂项商品和服务共九方面作为消费结构.3.2数据来源与说明目前,研究城镇居民消费结构,一般可将我国个人消费的货物和服务按用途分为八大类。