当前位置：文档之家› 系统聚类分析

系统聚类分析

1.093
0.971 0.316 0.527 0.212 0.211 0.181 0.666 0.414
4 510.5
2 773.5 6 934.5 4 458 12 249 8 973 10 689 3 679.5 4 231.5
1 036.4
683.7 611.1 632.6 791.1 636.5 634.3 771.7 574.6
四（2）、最短距离聚类法
最短距离聚类法，是在原来的m×m距离矩阵找出“距离最小”的两个分类对象Gp和Gq，并将其归并为一新类Gr，然后按“距离最短”计算公式 d rk min{ d pk , d qk } (k p, q) 计算原来各类与新类之间的距离，这样就得到一个新的（m－1）阶的距离矩阵；再从新的距离矩阵中选出距离最小者dij，把Gi和Gj归并成新类；再计算各类与新类的距离，这样一直下去，直至各分类对象被归为一类为止。
(2)按新的分类结果重新计算距离矩阵（见103面），发现d57=0.85最小，故将第 5区与第7区并为一类，得到一个新的共7 类的暂时分类结果；
(3)按上面的方法依此类推。
图3.4.1 直接聚类谱系图
聚类谱系图（树形图）说明
（1）聚类谱系图显示的是一个一般的分类结构，不是一个特定的分类结果。（2）用户可设定“距离临界值”并根据设定的临界值进行分类。例如，如设定距离临界值”在1.78-3.10之间，则9个农业区可分为 3大类,即 {G1, G2, G8}, {G3,G4,G9}, {G5,G6,G7} （3）“距离临界值”的选取没有一个严格的标准，一般取距离跨度较大的两个值中间的值。
0 4.79 2.99 4.05 1.3 0.49
0 1.8 0 0.85 1.07 0 5.17 3.96 5.03 4.86 3.06 4.12 1.4
0 8
0
聚类分析步骤如下（书102-104面）:
(1)在距离矩阵D中，除去对角线元素以外，d49=d94=0.49为最小者，故将第4区与第9区并为一类，得到一个新的共8类的暂时分类结果；
d ij xik x jk
② 欧氏距离
d ij
i 1
2 ( x x ) ik jk k 1 n
n
(i, j 1,2,, m)
（1）
(i, j 1,2,, m)
（2）
③ 明科夫斯基距离
n d ij xik x jk k 1
1 p p
G7
G8 G9
0
0.908 0.383
0
0.532 0.255
0.904
0.069 0.035
0.812
8E-04 0
0.835
0.096 0.154
0.129
0.427 0
0.997
0.087 0.004
三（1）“聚类对象”之间的距离及其计算
常见的“距离”有
① 绝对值距离（下面公式中的i =1应为 k=1)
ij
（3.4.1）
这种标准化方法所得到的新数据满足
x
i 1
ij
1
( j 1,2, , n)
② 标准差标准化，即
xij x j sj
xij
(i 1,2,, m; j 1,2,, n)
（3.4.2）
由这种标准化方法所得到的新数据，各要素的平均值为0，标准差为1，即有
四(1)、直接聚类法
原理及步骤（书100面）（5）绘系统聚类树形图。
（6）选取距离临界值，根据树形图确定分类个数和分类结构
例题：某地区的9个农业区的聚类分析。
极差标准化矩阵如下（书101面，程序 HCA_Example3.m)
0.9125 1 0.2 0.4333 0.025 0.0292 0 0.9083 0.3833 1 0.8662 0.148 0.3794 0.034 0.0329 0 0.5318 0.2555 0.073 0 0.068 0 1 0.606 0.904 0.069 0.035 0.153 0.002 0.437 0.132 1 0.689 0.812 8E-04 0 0.183 0 0.439 0.178 1 0.654 0.835 0.096 0.154 1 0.236 0.079 0.126 0.469 0.134 0.129 0.427 0 0.143 0 0.071 9E-04 1 0.595 0.997 0.087 0.004
1 m 0 x j xij m i 1 sj 1 m 2 ( x x ) 1 ij j m i 1
③ 极大值标准化，即
xij xij max{xij }
i
(i 1,2, , m; j 1,2,, n)
（3.4.3）
经过这种标准化所得的新数据，各要素的极大值为1，其余各数值小于1。 ④ 极差的标准化，即 xij minxij i xij (i 1,2,, m; j 1,2,, n) maxxij minxij
4.46 1.86 2.99 1.78
5.53 2.93 4.06 0.83 1.07 0 0.88 2.24 1.29 5.14 3.96 5.03
1.66 1.20 0.51 4.84 3.06 3.32 1.40
回忆前面的直接聚类法 (1) 在9×9阶距离矩阵D 中，非对角元素中最小者是d94=0.51，首先将第4区与第9区并为一类，记为G10=｛G4，G9｝。按照最短距离公式分别计算G1，G2，G3，G5， G6，G7，G8与G10之间的距离得
聚类分析的概念：
聚类分析就是按照事物间的相似性进行
科学的区分或分类的过程。聚类对象：聚类所针对的对象聚类要素：聚类所考虑的因素
二、聚类要素的数据处理
在聚类分析中，聚类要素的选择是十分重要的，它直接影响分类结果的准确性和可靠性。
在分类和分区研究中，被聚类的对象常常是多个要素构成的。不同要素的数据往往具有不同的单位和量纲，其数值的变异可能是很大的，这就会对分类结果产生影响。因此当分类要素的对象确定之后，在进行聚类分析之前，首先要对聚类要素进行数据处理。
引例2：可否对9个农业区进行分类？
表1 某地区9个农业区的7项经济指标数据
区代号人均耕地X1
/（hm2
劳均耕地X2
/（hm2
·
人-1）
·
个-1
）
水田比重 X3 /% 5.63
0.39 5.28 0.39 72.04 43.78 65.15 5.35 2.9
复种指数 x4 /% 113.6
（5）
4.46 1.86 2.99 1.78
5.53 2.93 4.06 0.83 1.07 0 0.88 2.24 1.29 5.14 3.96 5.03
1.66 1.20 0.51 4.84 3.06 3.32 1.40
三（2）变量之间相似系数的计算
聚类分析不仅可以对“样本”分类，也
可以对“变量分类”(例如书113面的第3 题) 。在此情况下分类的依据是“相似性系数”而不是“距离” 。两种常用的相似系数（书97面）：（1）夹角余弦（2）相关系数
n

jk
x ji ) 2
第二次课
四(1)、直接聚类法
原理及步骤（书100面）
（1）将每个对象或样本看做1类，共m类，记为 G1, G2,„,Gm (2)定义并计算样本之间的两两“距离”，得到第1个距离矩阵 D0
（3）合并距离最近的两类为一新类，其它的样本暂不合并这样可得到共m-1类。
（4）对新得到的分类重复步骤（2）&（3），直至将全部样本分为1类为止。
假设有m 个聚类的对象，每一个聚类对象都有 n个要素构成。它们所对应的要素数据可用表 3.4.1给出。 (主要省略号的记号）
表3.4.1 聚类对象与要素数据
要聚类对象素
x1
x11 x21 xi1 xm1
x2 x j xn
x12 x22 xi 2 x1 j xij x1n xin xmn x 2 j x2 n
d1，10=min｛d14，d19｝= min｛2.19，2.62｝=2.19
第4章系统聚类分析 (共两次课）（Hierarchical Cluster Analysis)
主要内容（参见书87面-）聚类分析概述聚类要素的数据处理距离和相似系数的计算常用系统聚类法环境应用
一、聚类分析概述
引例1：书89面例4.1.
-问题：6个站点可否按其指标的相似性进行分类？如何综合考虑5个指标？
1 2 i m
xm 2 xmj
在聚类分析中，常用的聚类要素（变量）的数据处理方法有如下几种: ① 总和标准化。分别求出各聚类要素所对应的数据的总和，以各要素的数据除以该要素的数据的总和，即
xij xij
x
i 1
m
m
(i 1,2,, m; j 1,2,, n)
i i
（3.4.4）
经过这种标准化所得的新数据，各要素的极大值为1，极小值为0，其余的数值均在0与1之间。
例题:通过Excel对某地区9个农业区的7项指标进行标准化处理（见Excel文件“聚类分析例子.xls)
极差标准化区代号 X1 G1 G2 G3 G4 G5 G6 0.913 1 0.2 0.433 0.025 0.029 X2 1 0.866 0.148 0.379 0.034 0.033 X3 0.073 0 0.068 0 1 0.606 X4 0.153 0.002 0.437 0.132 1 0.689 X5 0.183 0 0.439 0.178 1 0.654 X6 1 0.236 0.079 0.126 0.469 0.134 X7 0.143 0 0.071 9E-04 1 0.595

e商务文档

系统聚类分析

相关文档推荐：