当前位置:文档之家› 主成分分析和聚类分析的比较

主成分分析和聚类分析的比较

主成分分析和聚类分析的比较摘要:主成分分析和聚类分析方多元统计中两种重要的分析方法,但却容易在使用中混淆。

本文从基本思想,应用的优缺点、应用实例中讨论两者的异同,并简述两种方法在实际问题中的应用。

关键词:主成分分析;聚类分析一、引言主成分分析是利用降维的思想,在缺失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。

通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。

聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。

其主要依据是聚到同一个数据集的样本应该性质相似,而属于不同组的样本应该足够不相似。

两种方法既有区别又有联系,本文将两者的异同进行比较,并举例说明两者在实际应用中的联系,以便更好地理解这两种统计方法而为实际所应用。

二、基本思想的异同相同点:主成分分析方法是用少数的几个变量来综合反映原始变量的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85%以上,因此其可信度很高。

通过主成分分析,可以将事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,解释变量之间的内在关系。

因此主成分变量比原始变量少了很多,从而起到了降维的作用。

聚类分析的基本思想是采用多变量的统计值,定量的确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用。

按它们亲疏差异程度,归类不同的分类中的一元。

使分类更具有客观实际并能反映事物的内在必然联系。

聚类分析是通过一种大的对称矩阵来探索相关关系的一种数学分析方法。

对变量分类后,我们对数据的处理难度也降低,所以从某种意义上说,聚类分析也起到了降维的作用。

不同点:主成分分析是研究如何通过原来变量的少数几个变量组合来解释原来变量绝大多数信息的一种多元统计方法。

主成分分析就是设法将原来众多具有相关性的指标,从新组合成一组相互无关的指标来代替原来的指标。

我们将选取的一组线性组合标为F i,若F i方差越大,贝M弋表所包含的信息越多。

贝U称其为第一主成分,再选一组线性组合其方差次大,记为F2,,称其为第二主成分,且规定F i与F2线性无关。

是指第一主成分与第二主成分所包含信息不重合。

且所包含的信息大小逐渐递减。

我们在实际研究中只需要选取前几个成分即可。

在聚类分析过程中,如果选取的聚类量纲不同会导致错误的结果。

因此在聚类过程之前必须对变量进行标准化。

不同的方法进行标准化,会导致不同的聚类结果。

三、应用的优缺点i 、主成分分析优点:它用降维技术将少数几个综合变量来弋替原始多个变量。

这些综合变量集中了原始变量大多数信息。

当评级指标较多时还可以在保留绝大部分信息的情况下用少数几个综合指标弋替原指标进行分析,主成分分析中各主成分是按照方差的大小来排列顺序的,在分析问题时,只取前后方差大的几个主成分来弋表原变量,从而减少了计算工作量,由于选择的原则是累计贡献率》85%所以不会因为减少作量却把关键指标遗漏而影响评估结果。

在综合评价函数中,各主成分的权数为其贡献率,它反映了该主成分包含原始数据的信息量占全部信息量的比重,这样确定权数是客观的、合理的,它克服了某些评价方法中认为确定权数的缺陷。

这种方法的计算比较规范,便于在计算机上实现,还可以利用专门的软件。

缺点:在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否贝主成分将空有信息量而无实际含义)。

主成分的解释其含义一般多少带有点模糊性。

因此,提取的主成分个数m通常应明显小于原始变量个数p (除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确,命名清晰性低。

2、聚类分析优点:聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小 类合并。

每类的变量相似但类与类之间的差异性很大,这样能清晰描述数据。

聚 类分析运用范围极广,涉及很多领域,包括数学,计算机科学,统计学,生物学 和经济学。

在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用 作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

聚类分析方便快捷,是管理统计很好的方法。

缺点:聚类分析是以完备的数据文件为基础的, 一般要求各个观测变量的量纲一 致,即各变量取值的数量级一致,否则各变量在描述客观事物某方面特征差异性 的作用有被夸大或缩小的可能。

要检查各变量的量纲是否一致,不一致则需进行 转换。

四、实例分析比较 1. 聚类分析运用中国统计年鉴数据,对主要城市废水中主要污染物排放来源情况进行研究 (2013 年)在spass 软件进行操作,其操作框及结果如下图所示。

(以系统聚类法为例)。

<WIM lUi'tl器_______________________________________■、扇鼠主副Z 闵囲疆临眞止坊•JL jirtr THiaifcLint* iLMti,主丢宵JIC愛百it 序生gM I石工耳 I 万阿 (Rl 1J5RI Mi3 4 T t :卓 94B6 6K5 33d 日汨詔 14139 5 ~| S 3:2E21S333S -E6469 B43M156F1I2E T E257^3 3B3D2 57H2347B "? j :t II 柯站 4D39 2M|lB?fe 3 靜釉』骂 ZQ 镒 1C64-3 E 却 11M3 一次 IB B533 9169 BD9 MT11D | 星■ &4E2 116710 1384 2Q73 II陥駅衰44 BT 69U- 1D65 33EJ 1Z ~ 上塞 4542E 22砧CO 1B34 1T72T 厂 用宣 25固1 21fiB7 佃H U 苗州 3313E 3ia47 IJR 53S4L Is j 0 E Etna TB9E 3fT4210: IE ii 州 弱 E2 S19D K2B IT 用 1 1HKI2 11473 IE® 茁無 IE 一吉两 B5965413 3 Ed 29 7B 19 _ M 11E3& 11973 5K2 4B54 2D Jt!R 13BU 1B1E3 UOZ ES52 21 ~ -fe S' 4>143 13499 ]« _ 43D0€ 5W 耳 BESE 22 —j 广州 Z1S1 2354 138$ 13&17B WWTT 1F44Z 23书宁STB23954136 26636S2244T5M•a A 験. 生二焙 wZuflLB磊兰钿L伽■国nSB-.Number ofclusters二:■:E启比■: . .■ :BE 说H:-眈□猶M-;诣痰珈:'K 八:即W-":IX•m UL<:.:.*-:oi 用x:比-im■; 85EL;:-7::3L说:W":和RM■: r:'9t孕住$畑¥ :比-:匕4Dendrogram using Average Link赳(Within Groups)Rescaled Distance Clustei Combine图1是冰柱图,是反映样品聚类情况的图。

如果按照设定的类数,在该类的行上从左到右就可以找到各类所包含的样品。

例如我们希望分为5类,最左边的类数应选2,每个样品右边都有一列冰柱,如果每个样品右边的列冰柱长度小于5,那么它和前面冰柱长度大于 5 的样品聚为一类,如此下去直到找到全部 5 类为止。

例如:重庆、上海、石家庄均小于 5 ,因此它们各分为一类,从杭州到广州分为一类,北京和成都聚为另一类,共五类。

图 2 是树状聚类图,从图中可以由分类个数得到分类情况。

如果我们选择分类数为5,就从距离大概为14 的地方往下切,得到分类结果如下{1:上海};{2:重庆};{3:石家庄};{4:天津,太原,呼和浩特,沈阳,长春,哈尔滨,南京,杭州,合肥,福州,南昌,济南,郑州,武汉,长沙,广州,南宁,海口,贵阳,昆明,拉萨,西安,兰州,西宁,银川,乌鲁木齐}。

{5:北京,成都}我们可以从各地区来主要污水来源理解所做的分类,第一类应该是主要污水来源为工业废水,城镇生活污水,生活化学和生活氨氮。

第二类主要污水来源为工业化学,城镇生活污水,生活化学。

第三类主要污染来源为工业废水和工业化学。

第四类主要污染来源为工业化学和生活化学。

第五类污染来源主要为城镇生活污水和生活化学。

系统聚类法在实际运用中的优缺点:系统聚类方法的优点是:操作简单,能细致的看出小类聚大类的过程,由由合并时的距离水平可以看出样品间的亲疏程度。

但是它的缺点是:一旦一组对象合并时,下一步将在新生成的类上进行。

已做的处理不能被撤销,类之间不能交换对象。

如果在某一步没有很好的选择合并的话,将会造成低质量的聚类结果。

因为合并或分裂的决定需要检查和估算大量的对象或类。

需计算大量的距离,需要花费大量的时间,所以算法不具有很好的可伸缩性。

2. 主成分分析运用中国统计年鉴数据,对主要城市废水中主要污染物排放来源情况进行研究(2013 年)在spass 软件进行操作,其操作框及结果如下图所示。

公因子方差初始提取工业废水 1.000 .818 工业化学 1.000 .897 工业氨氮 1.000 .887 城镇生活污水 1.000 .865 生活化学1.000 .893 生活氨氮1.000.930提取方法:主成份分析解释的总方差成份初始特征值 提取平方和载入合计方差的%累积% 合计 方差的%累积% 1 4.019 66.991 66.991 4.019 66.991 66.991 2 1.270 21.170 88.1601.27021.17088.1603 .313 5.221 93.3814 .232 3.871 97.2535 .121 2.013 99.2666 .044.734100.000提取方法:主成份分析IltS.4:城芾盲応迟阳 k ■ yip Slliat*&4B6——sna强莺出:屯■曙10 11 12 1?it- 17 佃 19 it) Ml> .ftSE B1HTdiUTIltffli60S 呂 KZIEi加2 翊 14&I3 115& llfif^ WH 占阴21E97 31MT ?W6 创艸 1U7& M-13 IW?» 诩鶴 1»99 Z2E&I-21M+诚 S1^M WQ1(SOfi2加 391K ffll6 吟 1DGJS K96 116K1B01A 4049 2询 鹽垃 8KJ34&1 IHfl饪比主M 芳卓□ H2I仙的1-5E7110WFT 6E41 仙 3!帕i iass1383- im 61 37S HI1irw? ?944 阿 36211 11144吕站EE34SIG3S»t?34^9143]M 1B1H玫弼ina WK 37成份矩阵a提取方法:主成份。

相关主题