当前位置:文档之家› 系统聚类分析PPT课件

系统聚类分析PPT课件

经过这种标准化所得的新数据,各要素的 极大值为1,极小值为0,其余的数值均在0与1 之间。
例题:表3.4.2给出了某地区9个农业区的7项 指标,它们经过极差标准化处理后,如表 3.4.3所示。
表3.4.2 某地区9个农业区的7项经济指标数据

人均
劳均

耕地X1
耕地X2
· · 号 /(hm2 人-1) /(hm2 个-1 )
水田 比重
X3 /%
G1 0.294
G2 0.315 G3 0.123 G4 0.179 G5 0.081 G6 0.082 G7 0.075 G8 0.293 G9 0.167
1.093
0.971 0.316 0.527 0.212 0.211 0.181 0.666 0.414
5.63
0.39 5.28 0.39 72.04 43.78 65.15 5.35 2.9
③ 明科夫斯基距离
1
dijkn1xikxjkpp
(i,j1,2, ,m )(3.4.5)
(i,j1,2, ,m)(3.4.6)
(i,j1,2, ,m) (3.4.7)
④ 切比雪夫距离。当明科夫斯基距 p
时,有
d ij m k x ia k x x jk
(i,j 1 ,2 , ,m ) (3.4.8)
据表3.4.3中的数据,用公式(3.4.5)式计
算可得9个农业区之间的绝对值距离矩阵如下
0
1.52 0
3.10 2.70 0
2.19 1.47 1.23 0
D
(di
j
)995.86 来自6.023.644.77
0
4.72 4.46 1.86 2.99 1.78 0
5.79 5.53 2.93 4.06 0.83 1.07 0
复种 指数
x4 /%
粮食 单产x5
· /(kg hm -2

113.6 4 510.5
95.1 148.5 111 217.8 179.6 194.7 94.9 94.8
2 773.5 6 934.5 4 458 12 249 8 973 10 689 3 679.5 4 231.5
人均粮食x6
· /(kg 人-1 )
③ 极大值标准化,即
x i j m ix { ix jia } j x (i 1 ,2 , ,m ;j 1 ,2 , (3,n .4) .3)
经过这种标准化所得的新数据,各要素的 极大值为1,其余各数值小于1。
④ 极差的标准化,即
x ij m ix ix j im ja im i x x ij x iiji nn ( i 1 ,2 , ,m ;j( 31 .,42 .,4 ),n )
0.26 0.04 0.00 0.15
X6
X7
1.00 0.14
0.24 0.00
0.08 0.07
0.13 0.00
0.45 1.00
0.13 0.59
0.13 1.00
0.43 0.09
0.00 0.00
二、距离的计算
常见的距离有
① 绝对值距离
n
dij xikxjk
② 欧氏距i 离1
n
dij (xikxjk)2 k1
假设有m 个聚类的对象,每一个聚类对象
都有n个要素构成。它们所对应的要素数据可
用表3.4.1给出。
表3.4.1 聚类对象与要素数据
聚类对象
1 2 i m


x1 x2 xj xn
x11 x12 x1 j x1n
x21 x22 x2 j x2n
x i1 x i 2 x ij x in
x m1 x m 2 x mj x mn
在聚类分析中,常用的聚类要素的数据处 理方法有如下几种:
① 总和标准化。分别求出各聚类要素所
对应的数据的总和,以各要素的数据除以该要
素的数据的总和,即
xijm xij
xij
(i1,2, ,m ;j1,2, ,n) (3.4.1)
i1
这种标准化方法所得到的新数据满足
1 036.4
稻谷 占粮 食比 重 x7/%
12.2
683.7 611.1 632.6 791.1 636.5 634.3 771.7 574.6
0.85 6.49 0.92 80.38 48.17 80.17 7.8 1.17
表3.4.3 极差标准化处理后的数据
x1
G1 0.91 G2 1.00 G3 0.20 G4 0.44 G5 0.03 G6 0.03 G7 0.00 G8 0.91 G9 0.38
第4节 系统聚类分析
➢聚类要素的数据处理
➢ 距离的计算 ➢ 直接聚类法 ➢ 最短距离聚类法 ➢ 最远距离聚类法 ➢ 系统聚类法计算类之间距离的统一公式
➢系统聚类分析实例
一、聚类要素的数据处理
在聚类分析中,聚类要素的选择是十分重 要的,它直接影响分类结果的准确性和可靠性。
在地理分类和分区研究中,被聚类的对象 常常是多个要素构成的。不同要素的数据往往 具有不同的单位和量纲,其数值的变异可能是 很大的,这就会对分类结果产生影响。因此当 分类要素的对象确定之后,在进行聚类分析之 前,首先要对聚类要素进行数据处理。
1.32 0.88 2.24 1.29 5.14 3.96 5.03 0
2.62 1.66 1.20 0.51 4.84 3.06 3.32 1.40
(3.4.9)
0
三、直接聚类法
▪ 原理
先把各个分类对象单独视为一类,然后根 据距离最小的原则,依次选出一对分类对象, 并成新类。如果其中一个分类对象已归于一类, 则把另一个也归入该类;如果一对分类对象正 好属于已归的两类,则把这两类并为一类。每 一次归并,都划去该对象所在的列与列序相同 的行。经过m-1次就可以把全部分类对象归为 一类,这样就可以根据归并的先后顺序作出聚 类谱系图。
m
xij 1 (j 1,2,,n)
i1
② 标准差标准化,即
x ijx is j jxj (i 1 ,2 , ,m ;j 1 ,2 , ,n ) (3.4.2)
由这种标准化方法所得到的新数据,各要 素的平均值为0,标准差为1,即有
xj m 1im 1xij0
sj m 1im 1(xijxj)2 1
x2
x3
x4
X5
1.00 0.07 0.15 0.18
0.87 0.00 0.00 0.00
0.15 0.07 0.44 0.44
0.38 0.00 0.13 0.18
0.03 1.00 1.00 1.00
0.03 0.61 0.69 0.65
0.00 0.90 0.81 0.84
0.53 0.07 0.00 0.10
相关主题