当前位置:文档之家› 多元统计分析小论文

多元统计分析小论文

应用多元分析课程设计论文题目:江苏省区县竞争力的主成分分析学号1140102013911401020102姓名周洁何韩吉贡献50%50%成绩指导教师苏理云邱世芳颜青日期江苏省区县竞争力的主成分分析摘要:本文以主成分分析为主要研究方法,从江苏省统计局网站得到江苏省2015年42个区县的统计数据,通过13项综合评价指标,对42个区县的竞争力进行计算和比较。

运用R语言,对上述13个指标进行标准化处理,通过累积方差贡献率和碎石图以及载荷系数分析得到3个主成分,然后根据三个主成分方程求出主成分得分,并结合主成分权数进行综合计算得到各区县的综合得分。

根据各区县的综合得分水平,并分析各区县的相对优势、薄弱环节及其差异导致因素。

并提出加快发展、提高核心竞争力的建议。

而且对地区竞争力发展排名有助于企业投资,政府改革和规划。

最终,我们通过以上方法,并且应用系统聚类法进行分析,分析其实际性,并得出聚类树状图,从图中直观分析判断,得出此竞争力排名是合理的,有效的。

关键词:主成分分析R语言聚类分析系统聚类法一、引言2016年11月份,江苏省省委书记李强在全省推动长江经济带建设工作座谈会上指出,“正在谋划把长江沿江城市作为一个大的板块,打造扬子江城市群,促进沿江地区发展能级的整体提升,使之成为未来江苏几个城市协同发展最主要的增长极。

”省党代会报告提出,以长江两岸高铁环线和过江通道为纽带,推进沿江城市集群发展、融合发展,也就是把我省的沿江城市作为一个大的板块,打造扬子江城市群,促进沿江地区发展能级的整体提升,使之成为未来江苏最主要的增长极。

扬子江城市群的战略构想意义十分重大:一是有利于更好发挥国家重大战略的效应。

“一带一路”、长江经济带和长三角区域发展一体化等战略在我省交汇叠加,有必要通过扬子江城市群的建设,把省内的力量聚合起来,形成一个整体参与到国家重大战略的实施中,发挥出更大的战略效应。

二是有利于优化全省区域发展格局。

我省发展存在南北梯度差距,多年来形成了三大板块和四沿经济带“3+4”的发展格局。

三是有利于推进新型城镇化。

比如苏南国家自主创新示范区建设、中国制造2025苏南城市群试验试点都是以城市群为单位进行布局的,建设扬子江城市群有利于加快释放这些试验试点的外溢效应,使扬子江城市群成为集聚创新势能的聚能环。

在新一轮发展机遇期面前,作为长三角核心区的江苏省要力求在城市融合发展上求突破,有助于推动长江经济带发展以及实现长三角成为世界级城市群的宏伟目标。

对此,我们将对江苏省42个县级市县,选取2015年的多方面数据,包括了国民生产总值,人均纯收入,财政预算收入,图书馆藏量,年金融机构储蓄总量,地区常住人口等13个重要指标。

这些指标可以从经济,文教,政治等多方面展现地区发展的实际情况。

我们将采用R语言对所有数据进行主成分分析,采用主成分分析得分来对地区进行排名。

另外,我们还采用聚类分析,得出排名。

最终使用权重方法综合考虑两种方法的计算结果给出一个综合评价标准和地区竞争力评价体系。

二、主成分分析基本原理(一)概念在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。

主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分,忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

(二)思路在做数据分析时,涉及的变量往往很多,这会给问题的分析带来复杂性。

而变这些量之间通常存在着一定程度的、有时甚至是相当高的相关性,用较少新变量代替较多原始变量,可以使问题的分析简单化。

(三)原理假定有n 个样本,每个样本有p 个变量,构成一个n*p 阶的数据矩阵,=X ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡np n n X X X 212P 22211P 1211 X X X X X X 记原变量指标为P X X X ,21,设降维处理后的综合指标,即设),,(21p X X X X =是一个p 维随机变量,记)(),(X V X E =∑=μ,新变量为)(,21p m Y Y Y m ≤ ,,则⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=pnp m m m p p p p X a X a X a Y X a X a X a Y X a X a X a Y 22112222121212121111得到的第一主成分,第二主成分……第i 主成分,使他们的方差尽可能大。

(四)基本结论1.主成分向量的协方差矩阵Λ=)(Y V ,即i i Y V λ=)(,p i ,2,1=,且p Y Y Y ,,21互不相关。

2.主成分的总方差∑∑===p i ii p i i11σλ或者∑∑===p i ipi i X V Y V 11)()(由此可以看出,主成分分析把p 个原始变量p X X X ,,21的总方差)(∑tr 重新分解成了p 个互不相关的m Y Y Y ,21,的方差之和∑=pi i 1λ。

这种新分解最大限度地使得在总方差的份额分配上越是靠前的主成分越能得到尽可能多的照顾,以致前面少数几个主成分往往在总方差中占有相当大的份额,从而有利于变量的降维。

3.主成分的贡献率总方差中属于第i 主成分i Y 的比例为∑=p i ii1λλ称为主成分i Y 的贡献率。

第一主成分i Y 的贡献率最大,表明它解释原始变量p X X X ,,21的能力最强,而m Y Y Y ,21,的解释能力依次递减。

主成分分析的目的就是为了减少变量的个数,因而一般是不是使用所有p 个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。

前m 个主成分的贡献率之和∑∑==p i iim i 11λλ称为主成分m Y Y Y ,21,的累计贡献率,它表明m Y Y Y ,21,解释p X X X ,,21的能力。

通常取相对于p 较小的m ,使得累计贡献率达到一个较高的百分比(如80%~90%)。

此时,m Y Y Y ,21,可用来代替p X X X ,,21,从而达到降维的目的,而信息的损失却不多。

4.原始变量i X 与主成分k Y 之间的相关系数pi Y t Y t Y t X p ip i i i ,,2,1,2211 =++=所以kik k k ik k i t Y Y t Cov Y X Cov λ==),(),(pk i ,,2,1, =5.m 个主成分对原始变量的贡献率上面的累计贡献率度量了m 个主成分从原始变量p X X X ,,21提取的信息的多少,而i X 与m Y Y Y ,21,的复相关系数m ,,12^ ,i ρ,它是i X 的方差可由m Y Y Y ,21,联合解释的比例,称之为m 个主成分m Y Y Y ,21,对原始变量i X 的贡献率。

()∑∑==∙==m 11222m ````·1i /,k mk ii ik k k i t y x σλρρ,()∑∑====p 112,21/k p k ii ik k k i t y x σλρ6.原始变量对主成分的影响ppk k k k X a X a X a Y +++= 2211称ik t 为第k 个主成分k Y 在第i 个原始变量i X 上的载荷,它反映了i X 对k Y 的重要程度。

(五)重要应用主成分分析在变量降维方面扮演者重要的角色,是进行多变量综合评价的有力工具从图可知,途中变量和成分间的关系1x 和2x 是沿着一定轨迹分布的数据,单独选择1x 或2x 都会丧失较多的原始信息。

作正交(垂直)旋转,得到新的坐标轴1y 和2y 。

旋转后数据主要是沿着1y 方向散布,在2y 方向的离散程度很低,另外,1y 和2y 是相互垂直的,表明他们互不相关。

即使只是单独提取变量1y 而放弃变量2y ,丧失的信息也是微小的。

通常把1y 称为第一主成分,2y 称为第二主成分。

主成分的关键是要寻找一组相互正交的向量,原变量乘上该组正交的变量后能得到新变量组。

如果这两个变量分别由横轴和纵轴表示,每个观测值都有对英语这两个坐标轴的两个坐标值,也就是这个二维坐标系中的一个点。

如果这些数据点形成一个有椭圆形轮廓的点阵,那么这个椭圆就有一个长轴和短轴。

在短轴方向上,数据变化较小。

如果两个坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就藐视了数据的次要变化。

但是,坐标轴通常并不和椭圆的长短轴平行。

因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。

如果长轴代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的短轴变量),降维就完成了。

在极端的情况下,即端走如果退化成一点,呢么只有长轴变量才能解释这些点的变化,这样,由二维到一维的降维就自然完成了。

图即为一个这样的椭圆示意图。

椭圆的长短轴相差得越大,降维也就越有道理。

以1x 和2x 表示途中的横轴和纵轴,将1x 和2x 同时按逆时针方向旋转θ度,得到新的坐标轴1y 和2y ,1y 和2y 是两个新变量,其旋转公式为:⎩⎨⎧+-=+=212211cos sin sin cos x x y x x y θθθθ新变量1y 和2y 是旧变量1x 和2x 的线性组合,其矩阵形式为:x U x x y y =⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-=⎥⎦⎤⎢⎣⎡2121cos sin sin cos θθθθ其中,U为旋转变换矩阵,它是正交矩阵,即IU='。

U多维变量的情况和二维类似,也有高维的椭球,只不过无法直接观看罢了。

首先,把高维椭球的各个主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量,这样,主成分分析也就基本完成了。

注意,和二维情况类似,高维椭球的主轴也是相互垂直的。

这些互相正交的新变量是原始变量的线性组合,即主成分。

三、聚类分析(一)基本原则聚类分析的基本原则是将有较大相似性的对象归为同一类,而将差异较大的个体归入不同的类。

常用的聚类分析方法是:系统聚类法,快速聚类法、模糊聚类法。

(二)基本介绍在确定了距离和相似系数后就要进行分类。

分类最常用的方法是在样品距离的基础上定义类与类之间的距离。

首先将n各样品分成n 类,每个样品自称一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直持续到将所有的样品归为一类为止,并把这个过程画成一张聚类图,参照聚类图克方便地进行分类。

因为聚类图很像一张系统图,所以这种方法叫作系统聚类法。

(三)类与类之间的距离1.最短距离法:类与类之间的距离等于两类最近样品间的距离。

相关主题