当前位置:文档之家› 聚类分析案例分析

聚类分析案例分析

《应用多元统计分析》
――报告
班级:
学号:
姓名:
聚类分析的案例分析
摘要
本文主要用SPSS软件对实验数据运用系统聚类法和K均值聚类法进行聚类分析,从而实现聚类分析及其运用。

利用聚类分析研究某化工厂周围的几个地区的气体浓度的情况,从而判断出这几个地区的污染程度。

经过聚类分析可以得到,样本6这一地区的气体浓度值最高,污染程度是最严重的,样本3和样本4气体浓度较高,污染程度也比较严重,因此要给予及时的控制和改善。

关键词:SPSS软件聚类分析学生成绩
数据来源
、数学模型
聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度的 相似性。

可以根据这些相似性把相似程度较高的归为一类, 从而对其总体进行分
析和总结,判断其之间的差距。

系统聚类法的基本思想是在这几个样本之间定义其之间的距离, 在多个变量之 间定义其相似系数,距离或者相似系数代表着样本或者变量之间的相似程度。

根 据相似程度的不同大小,将样本进行归类,将关系较为密切的归为一类,关系较 为疏远的后归为一类,用不同的方法将所有的样本都聚到合适的类中, 这里我们 用的是最近距离法,形成一个聚类树形图,可据此清楚的看出样本的分类情况。

K 均值法是将每个样品分配给最近中心的类中,只产生指定类数的聚类结果。

《应用多元统计分析》第一版164页第6题
我国山区有一某大型化工厂,在该厂区的邻近地区中挑选其中最具有代表性的
8个大气取样点,在固定的时间点每日4次抽取6种大气样本,测定其中包含的 8个取样
点中每种气体的平均浓度,数据如下表。

试用聚类分析方法对取样点及 大气污染气体进行分类。

二氧化硫
环召豆1丙
环己烷
1 0. 056 0.084
0. 031 「0. 038
0. 0081 0. 022
2
0. 049 0. 055 0. 1
0. 11
0. 022 0.0073^ 匚 3
C. 038 0, 13 0. 079 F
17
0. 05S
0, 0i3 4
r 0- 034 0. 095 CL 058 -616 0. 2 0. 029^ 号
r 0.094 0,066 0, 029
厂 0, 32
012 0. Oil 6 0. 064 0. 072 CL 1 P 0.21 0. 0Z8 1, 38 7
0. 040 0. 089 0. OG2 0. 26
0. 033 0. 1 3
0. 069
0. 0S7
0. 027
F 0.05
0.

0. 021
三、建立数学模型
、运行过程
(一)系统聚类分析
在SPSS界面对上述数据进行系统聚类分析如图1和图2所示,进行最近距离分类。

Cluster Mem tership-
© Non e
O Single solution
number of dusters:
@迟沏我ofsolutioris
Llinimum number of cluste rs2
Maximum number of clusters:4坐Hierarchical Cluster Analyst: Save UontinciE]Cancel
(二)K均值聚类分

对数据进行K均值聚类分析,如下图所示:
毕Cluster N,
呈Cluster membership
Q DistanfEfrom 匚luster cenier
f --------------- / ------------------ f -------------- \
Continue Cancel Help
图4
K Means Cluster Ana^sis:
Statistics
V India cluster centers
I' ATJOYAiaDlK
V Cius:9r nfcrT.atijn lorsach OSQ
-Mis Jing Value; ---------------------
◎ Esc Lld^ C3£&^ Il5twis-
C 匚述ud? caiss pairwise
Cgm训| Cancel | H创匚
二、运行结果
(一)聚类树形图
41:卑閣阴F黑齡書盒井
W 1S- 53
由图可以看出,将数据进行聚类分析,根据设定的分为了二类到三类。

若分为两类则样本6为一类,其他为一类;若分为三类则将样本四分离出来,其他分为一类。

(二)新变量
itl K2X3X4J(S CLUJ 1CLLl2_i
1
1.0160.own.0310”038 D.02201
2.1500.1100.007311
3IJdQ170D a MO11
21 1-0340-.OT50.0580160D.2000.0290
50E40.mo.0290顾QI却.041011
6QUO07701Q0O2100Q河 1 XQQ3?
70450G5202SC'O0^003GO11 OfiflO OST0Q?70050 D om521011
该图显示将分类结果的新变量,分别为CLU3_1和CLU2_1可以清楚的看到将
数据聚为2类和3类的分类情况
(三)新变量迭代过程中类中心的变化量
迭代历史记录a
a.由于聚类中心内没有改动或改动较小而达到收敛。

任何中心的最大绝对坐标更
改为.000。

当前迭代为2。

初始中心间的最小距离为.230。

从表中可以看出本次聚类过程共进行了两次迭代。

由于我们在Iterate 子对话框中设置最大迭代次数为10和收敛判据为0,所以在第二次迭代后,类中心的变化为0,从而迭代停止。

(四)各观测量所属类成员表
聚类成员
(五)最终类中心表
图10
根据结果(五)和结果(六)可以看出,将8个样本聚为了4类。

第一类包括样本1、样本2和样本8,根据图1中聚类1这一列可以看出,这一类为这四类中气体浓度值最低的一类,也就是说该类的环境污染不严重,属于优;第二类包括样本5和样本7,该类气体浓度也是比较低的一类,环境污染有些严重,属于良;第三类包括样本6,这一气体浓度最高,环境污染最严重,属于差;第四类包括样本3 和样本4,环境污染较严重,属于中。

(六)新变量
K1X2K3X4XS XG CLU CLU|QCL 1QCL_2 1帖閱094003 rO0380OMi022011M656
20MD.100011M.0220.0073■111为也
3.C3B0.13DD.07901700.0430'114D?44l}
40340.05801600_2M0.0290214.07440
5CS4Q•Q2W-OT2Q■ W1011 2 04247
6064007?010QHJ0-2801323QEJOOQ
708900620260003800%D12
3瞒D0087002700500QtSQ0210i1106017
如图所示,QCL_1为分类情况,而QCL_2为所属类中心距离
四、结论
通过在SPSS软件中对聚类分析案例的运用将不同的样本聚为不同的类,并算
出其间的距离更加清楚方便的将多项不同的样本进行聚类分析,并对其的总体情
况进行估计,最后能够得到各类别的气体浓度总体情况,从而判断出环境污染的严重情况。

经过这次实验学到了很多东西,遇到的问题也一一得到解决。

相关主题