当前位置:文档之家› 系统聚类分析

系统聚类分析


1.093
0.971 0.316 0.527 0.212 0.211 0.181 0.666 0.414
4 510.5
2 773.5 6 934.5 4 458 12 249 8 973 10 689 3 679.5 4 231.5
1 036.4
683.7 611.1 632.6 791.1 636.5 634.3 771.7 574.6
四(2)、最短距离聚类法
最短距离聚类法,是在原来的m×m距离矩阵找 出“距离最小”的两个分类对象Gp和Gq,并将 其归并为一新类Gr,然后按“距离最短”计算 公式 d rk min{ d pk , d qk } (k p, q) 计算原来各类与新类之间的距离,这样就得到 一个新的(m-1)阶的距离矩阵; 再从新的 距离矩阵中选出距离最小者dij,把Gi和Gj归并成 新类;再计算各类与新类的距离,这样一直下 去,直至各分类对象被归为一类为止。
(2)按新的分类结果重新计算距离矩阵 (见103面),发现d57=0.85最小,故将第 5区与第7区并为一类,得到一个新的共7 类的暂时分类结果;
(3)按上面的方法依此类推。
图3.4.1 直接聚类谱系图
聚类谱系图(树形图)说明
(1)聚类谱系图显示的是一个一般的分类结 构,不是一个特定的分类结果。 (2)用户可设定“距离临界值”并根据设定 的临界值进行分类。例如,如设定距离临界 值”在1.78-3.10之间,则9个农业区可分为 3大类,即 {G1, G2, G8}, {G3,G4,G9}, {G5,G6,G7} (3)“距离临界值”的选取没有一个严格的 标准,一般取距离跨度较大的两个值中间的 值。
0 4.79 2.99 4.05 1.3 0.49
0 1.8 0 0.85 1.07 0 5.17 3.96 5.03 4.86 3.06 4.12 1.4
0 8
0
聚类分析步骤如下 (书102-104面):
(1)在距离矩阵D中,除去对角线元素 以外,d49=d94=0.49为最小者,故将第4区 与第9区并为一类,得到一个新的共8类的 暂时分类结果;
d ij xik x jk
② 欧氏距离
d ij
i 1
2 ( x x ) ik jk k 1 n
n
(i, j 1,2,, m)
(1)
(i, j 1,2,, m)
(2)
③ 明科夫斯基距离
n d ij xik x jk k 1
1 p p
G7
G8 G9
0
0.908 0.383
0
0.532 0.255
0.904
0.069 0.035
0.812
8E-04 0
0.835
0.096 0.154
0.129
0.427 0
0.997
0.087 0.004
三(1)“聚类对象”之间的距离及其计算
常见的“距离”有
① 绝对值距离(下面公式中的i =1应为 k=1)
ij
(3.4.1)
这种标准化方法所得到的新数据满足
x
i 1
ij
1
( j 1,2, , n)
② 标准差标准化,即
xij x j sj
xij
(i 1,2,, m; j 1,2,, n)
(3.4.2)
由这种标准化方法所得到的新数据,各要 素的平均值为0,标准差为1,即有
四(1)、直接聚类法
原理及步骤(书100面) (5)绘系统聚类树形图。
(6)选取距离临界值,根据树形图确定分类 个数和分类结构
例题:某地区的9个农业区的聚类分析。
极差标准化矩阵如下(书101面,程序 HCA_Example3.m)
0.9125 1 0.2 0.4333 0.025 0.0292 0 0.9083 0.3833 1 0.8662 0.148 0.3794 0.034 0.0329 0 0.5318 0.2555 0.073 0 0.068 0 1 0.606 0.904 0.069 0.035 0.153 0.002 0.437 0.132 1 0.689 0.812 8E-04 0 0.183 0 0.439 0.178 1 0.654 0.835 0.096 0.154 1 0.236 0.079 0.126 0.469 0.134 0.129 0.427 0 0.143 0 0.071 9E-04 1 0.595 0.997 0.087 0.004
1 m 0 x j xij m i 1 sj 1 m 2 ( x x ) 1 ij j m i 1
③ 极大值标准化,即
xij xij max{xij }
i
(i 1,2, , m; j 1,2,, n)
(3.4.3)
经过这种标准化所得的新数据,各要素的极 大值为1,其余各数值小于1。 ④ 极差的标准化,即 xij minxij i xij (i 1,2,, m; j 1,2,, n) maxxij minxij
4.46 1.86 2.99 1.78
5.53 2.93 4.06 0.83 1.07 0 0.88 2.24 1.29 5.14 3.96 5.03
1.66 1.20 0.51 4.84 3.06 3.32 1.40
回忆前面的直接聚类法 (1) 在9×9阶距离矩阵D 中,非对角元素中最小者是d94=0.51,首先将 第4区与第9区并为一类,记为G10={G4,G9}。 按照最短距离公式分别计算G1,G2,G3,G5, G6,G7,G8与G10之间的距离得
聚类分析的概念:
聚类分析就是按照事物间的相似性进行
科学的区分或分类的过程。 聚类对象:聚类所针对的对象 聚类要素:聚类所考虑的因素
二、聚类要素的数据处理
在聚类分析中,聚类要素的选择是十分重 要的,它直接影响分类结果的准确性和可靠性。
在分类和分区研究中,被聚类的对象常常 是多个要素构成的。不同要素的数据往往具有 不同的单位和量纲,其数值的变异可能是很大 的,这就会对分类结果产生影响。因此当分类 要素的对象确定之后,在进行聚类分析之前, 首先要对聚类要素进行数据处理。
引例2:可否对9个农业区进行分类?
表1 某地区9个农业区的7项经济指标数据
区 代 号 人均 耕地X1
/(hm2
劳均 耕地X2
/(hm2
·
人-1)
·
个-1

水田 比重 X3 /% 5.63
0.39 5.28 0.39 72.04 43.78 65.15 5.35 2.9
复种 指数 x4 /% 113.6
(5)
4.46 1.86 2.99 1.78
5.53 2.93 4.06 0.83 1.07 0 0.88 2.24 1.29 5.14 3.96 5.03
1.66 1.20 0.51 4.84 3.06 3.32 1.40
三(2)变量之间相似系数的计算
聚类分析不仅可以对“样本”分类,也
可以对“变量分类”(例如书113面的第3 题) 。在此情况下分类的依据是“相似性 系数”而不是“距离” 。 两种常用的相似系数(书97面): (1)夹角余弦 (2)相关系数
n

jk
x ji ) 2
第二次课
四(1)、直接聚类法
原理及步骤(书100面)
(1)将每个对象或样本看做1类,共m类,记为 G1, G2,„,Gm (2)定义并计算样本之间的两两“距离”,得到 第1个距离矩阵 D0
(3)合并距离最近的两类为一新类,其它的样 本暂不合并这样可得到共m-1类。
(4)对新得到的分类重复步骤(2)&(3),直 至将全部样本分为1类为止。
假设有m 个聚类的对象,每一个聚类对象都有 n个要素构成。它们所对应的要素数据可用表 3.4.1给出。 (主要省略号的记号)
表3.4.1 聚类对象与要素数据
要 聚 类 对 象 素
x1
x11 x21 xi1 xm1
x2 x j xn
x12 x22 xi 2 x1 j xij x1n xin xmn x 2 j x2 n
d1,10=min{d14,d19}= min{2.19,2.62}=2.19
第4章 系统聚类分析 (共两次课) (Hierarchical Cluster Analysis)
主要内容(参见书87面-) 聚类分析概述 聚类要素的数据处理 距离和相似系数的计算 常用系统聚类法 环境应用
一、聚类分析概述
引例1:书89面例4.1.
-问题:6个站点可否按其指标的相似性 进行分类?如何综合考虑5个指标?
1 2 i m
xm 2 xmj
在聚类分析中,常用的聚类要素(变量) 的数据处理方法有如下几种: ① 总和标准化。分别求出各聚类要素所 对应的数据的总和,以各要素的数据除以该要 素的数据的总和,即
xij xij
x
i 1
m
m
(i 1,2,, m; j 1,2,, n)
i i
(3.4.4)
经过这种标准化所得的新数据,各要素的极 大值为1,极小值为0,其余的数值均在0与1之间。
例题:通过Excel对某地区9个农业区的7项指标进行 标准化处理(见Excel文件“聚类分析例子.xls)
极差标准化 区代号 X1 G1 G2 G3 G4 G5 G6 0.913 1 0.2 0.433 0.025 0.029 X2 1 0.866 0.148 0.379 0.034 0.033 X3 0.073 0 0.068 0 1 0.606 X4 0.153 0.002 0.437 0.132 1 0.689 X5 0.183 0 0.439 0.178 1 0.654 X6 1 0.236 0.079 0.126 0.469 0.134 X7 0.143 0 0.071 9E-04 1 0.595
相关主题