当前位置:文档之家› 聚类分析应用范例

聚类分析应用范例

安徽工程大学本科课程设计(论文)专业:题目:基于聚类分析方法的农村消费状况探索作者姓名: ***指导老师:成绩:年月日摘要多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。

近30年来,随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析被广泛应用于自然学科和社会科学的各个学科,已经成为人们解决实际问题不可或缺的重要工具。

我国是一个农业大国,农民约占全国总人口的70%以上,是最大的消费群体,进行研究时要处理大量的复杂信息,因此运用统计方法探索农村消费状况有着重要的实际意义。

本文首先从我国农村消费现状入手,采用聚类分析方法对我国各地区农村消费支出结构水平进行分类比较研究,以得出各因素对农村消费状况影响程度,进而得出了相应的结论并提出增加我国农村居民消费的对策:一是增加农村居民收入;二是提高消费者素质;三是改善农村居民的消费环境;四是完善农村社会保障;五是统筹协调发展。

本文所研究的农村消费状况就受多种因素支配,各种因素之间也常存在着一定的内在联系和相互制约。

需要分析哪些是主要的,本质的,哪些是次要的,片面的,他们之间是什么样的关系等问题,多元统计分析正是解决这些问题的有力工具。

因而利用统计方法中的聚类分析有着重要的应用价值。

关键词:农村;消费;聚类分析引 言经过改革开放三十年的风雨历程,在投资、消费和出口三驾马车的拉动下,我国经济飞速发展,人民生活水平日益提高,居民收入不断增长,全面建设小康社会取得重大进展,实现了人民生活由温饱不足向总体小康的历史性跨越。

十七届三中全会提出“到2020年,农村改革发展基本目标任务是:农村经济体制更加健全,城乡经济社会发展一体化体制机制基本建立;现代农业建设取得显著进展,农业综合生产能力明显提高,国家粮食安全和主要农产品供给得到有效保障;农民人均纯收入比2008年翻一番,消费水平大幅提升,绝对贫困现象基本消除[1]。

”党中央正式把提升农村居民消费水平作为未来我国经济发展的目标,不仅体现了改革开放给农村居民生活所带来的显著变化,更体现了整个中国居民的整体消费水平的增长,借此稳定中国的经济基础,实现国民经济的可持续发展的长远规划。

随着党中央对农村消费的重视,社会各界对农村居民消费的关注程度不断增加,出现了大量对农村居民消费的研究成果。

朱信凯、雷海章和王宏伟,采用了相对收入理论研究我国农村居民消费行为。

刘建国和李锐、项海荣在弗里德曼的持久收入假说消费理论框架下,对我国农村居民消费倾向进行研究。

汪宏驹、张慧莲从流动性约束角度剖析了我国农村居民消费行为。

西方经济学的消费理论一般突出收入是影响消费的主要因素。

凯恩斯的绝对收入假说认为,消费是由收入唯一决定的,消费和收入之间存在稳定的函数关系。

杜森贝利的相对收入假说认为,消费者的消费支出水平不仅受当前收入水平的影响。

也受自己历史上曾经实现的消费水平的影响,这种现象被称为消费的“不可逆性”。

毫无疑问,国内有关此类问题的研究还处于理论阶段,与国外相比仍有很大差距,有待进一步扩展和深入。

评价指标的选取:探索农村消费状况,必须建立适当的指标体系。

但由于消费指标的复杂性和多样性,各指标的选取要遵循以下原则: (1) 选取的指标能客观地反映农村消费状况主要方面;(2) 指标之间基本上相互独立; (3) 尽量选取相对指标。

本文选取了食品(1X )、衣着(2X )、居住(3X )、家庭设备及服务(4X )、交通和通讯(5X )、文教娱乐用品及服务(6X )、医疗保健(7X )、其他商品及服务(8X )[2]。

第1章绪论1.1选题背景改革开放30多年来,我国经济一直保持高速增长。

伴随着经济的高增长,我国居民的总体收入水平也相应大幅提高,人民生活质量已基本达到小康水平,同时收入分配的格局发生了重大变化,个人收入来源日趋多样化。

但是随着个人收入取得的市场化程度提高,出现了个人收入分配差距过大的情况,而且这种趋势越来越显著。

在经过2008年重大自然灾害后,我国又面临着国际金融危机的蔓延和巨大冲击。

近十年来,我国的经济规模不断扩大。

2008年GDP总量已超过30万亿元,居世界第三位。

然而,虽然经济蛋糕做大了,但国内居民享用的份额却在不断下降,其突出的特征是投资率和消费率的变化。

我国近十年平均投资率在20%以上,比世界平均投资率(20% 左右)高出近20 个百分点;近十年平均最终消费率为36.6%,比世界平均消费率(78%左右)低20多个百分点。

我国的消费率不仅大大低于世界平均水平,并长期呈下降趋势。

目前我国最终消费率过低,在很大程度上是由于居民消费持续走低造成的。

我国居民消费率从1998 年的76% 下降到2007年的72.7%,达到历史最低水平;与此同时,城乡居民消费差距持续扩大。

在居民消费支出构成中,城镇居民和农村居民的消费比重比十年前年分别提高和下降11.3个百分点。

由于最终消费率长期偏低,国内居民消费需求增长缓慢,经济增长过份依赖投资和出口。

三大需求对GDP增长的贡献率,近十年投资的贡献率由1998 年的26.2% 上升到2007 年的20.9%,而消费的贡献率则由37.1% 下降到39.2%,投资对GDP 增长的拉动作用明显增强,而消费的拉动作用明显减弱,导致了我国现阶段经济增长动力不足,国内经济形势严峻。

1.2研究意义作为一个发展中国家,拉动经济增长的最主要力量仍然是国内需求,而扩大国内需求的一个重要举措是刺激国内消费,而农民作为中国广大的消费群体,其消费水平和消费需求的变化直接关系到内需的政策的效果。

目前,农民生活水平虽然有显著提高,但是农民消费仍然不足。

长期以来农村消费市场启而不动、发展缓慢,这已经影响到整个国民经济的健康发展。

同时,我国投资与消费的长期失衡孕育着经济运行的巨大风险消费率偏低,投资率过高,往往造成产能过剩,产品供过于求矛盾突出,导致企业效益下降,失业率增加;还造成内需不足后国内企业为求出路只能寻求海外市场,从而导致出口压力增大,人民币升值压力加大,外部风险加大;更为严重的是,居民消费率持续过低,不但使投资行为有可能偏离目标,即投资为了创造财富,最终为了消费而且终将使投资行为缺乏最终消费的强力支持而难以为继,进而造成经济的大起大落[3]。

因此研究中国农村居民消费状况,对于我国制定完善经济政策,改善农村居民消费结构,促进消费水平,进一步提高农民消费质量有重要的意义。

第2章 聚类分析2.1 基本思想聚类分析的基本思想是认为研究的样本或变量之间存在着程度不同的相似性,根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或变量)聚合为一类,把另外一些彼此之间相似程度较大的样本(变量)也聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后再把整个分类系统画成一张图,将亲疏关系表示出来[2]。

2.2 系统聚类法就聚类分析的内容而言,可分为系统聚类法、有序样品聚类法、动态聚类法和模糊聚类法。

这里主要介绍系统聚类法。

系统聚类法的聚类过程如下:首先将所研究的每个事物对象自己看作一个类,计算相互之间的接近程度后,将最相近的先合并为一类。

然后,进一步计算类与类之间的距离,再合并相近的类,直至将所有对象合并为一个大类。

也就是说,系统聚类的过程实际上给出了从最细的分类(每个对象自己为一类)到最粗的分类(所有的对象归为一类)之间的所有分类结果。

最后,根据问题需要,可以将对象分为若干类,即选择聚类过程中的一个分类结果。

设有n 个样品,每个样品测得p 项指标(变量),原始资料阵为12 11121121222212pX X X p p n n np n x x x x x x x x X x x x x ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦(2-1) 其中(1,,;1,,)ij x i n j p ==为第i 个样品的第j 个指标的观测数据。

第i 个样品i x 为矩阵x 的第i 行所描述,所以任何两个样品k x 与L x 之间的相似性,可以通过矩阵x 中的第K 行与第L 行的相似程度来刻划;任何两个变量k X 与L X 之间的相似性,可以通过第K 列与第L 列的相似程度来刻画。

23 点与点之间距离的度量方法点与点之间的距离包括欧式距离(Euclideam distance )、欧式距离的平方(Squared Euclidean distance )、切比雪夫(Chebychev )距离、绝对值距离(Block )、明氏距离(Minkowski ),同时SPSS 还给出了一个自定义(Customized )的距离,它是一个绝对幂的度量,即变量之差绝对值的q 次幂之和的r 次根,q 与r 由用户指定。

另外还有相似系数Cosine (变量矢量的余弦)和Pearson correlation (皮尔森相关系数)。

距离和相似系数计算公式如下:欧式距离:(,)K L d x x =(2-2)欧式距离的平方: 21(,)()p K L Kj Lj j d x x x x ==-∑ (2-3)变量矢量的余弦:(,)pKj Lj K L xxCOSINE x x =∑ (2-2)皮尔森相关系数:()()pK L KjLj KJ xx x x r --=∑ (2-3)切比雪夫距离: 1(,)max K L Kj Lj j pd x x x x ≤≤=- (2-6) 绝对值距离: 1(,)pK L Kj Lj j d x x x x ==-∑ (2-7)明氏距离:(,)pK L j d x x == (2-8)自定义距离:1(,)pK L j d x x == (2-9)2.2 类之间距离的度量方法类与类之间的距离定义不同,就产生了8种不同的系统聚类方法:最短距离法(Nearest neighbor )、最长距离法(Furthest neighbor )、重心法(Centroid clustering )、中间距离法(Median clustering )、类平均法(Within-groups linkage )、可变类平均法(Between-groups )、离差平方和法(Ward )和可变法。

SPSS 给出了前7种,系统默认为可变类平均法。

这样由于所选择的聚类方法不同,往往聚类的结果会有些差异。

因此在应用中可以多选择几种方法聚类,找出共性的结果对一些有争议的可以使用判别分析解决。

下面列出了SPSS 的上述7种系统聚类方法及其类与类之间距离的定义。

其中ijd 表示类p G 的任意样品i X 与类q G 的任意样品j X 之间的距离;pq D 表示类p G 与q G 之间的距离;类r G 是由类p G 与q G 合并而成的新类,任意其他类k G 到类r G 的距离自然就记为kr D 。

相关主题