当前位置:文档之家› 层次聚类分析

层次聚类分析


D(0)
表1
D(0) G1={X1}G2={X2}G3={X3}G4={X4}G5={X5} G1={X1} 0
G2={X2} 1
G3={X3} 2.5
0
1.5 0
G4={X4} 6
G5={X5} 8
5
7
3.5
5.5
0
2 0
D(1)
表2
D(1) G6={G1, G2} G3={X3} G4={X4} G5={X5} G6 0 1.5 5 7 0 3.5 5.5 0 2 0 G3 G4 G5
层次聚类分析
hierarchical clustering method
聚类分析也是一种分类技术。是研究“ 物以类聚”的一种方法。与多元分析的 其他方法相比,该方法理论上还不完善 ,但由于它能解决许多实际问题,很受 人们的重视,应用方面取得了很大成功 。
举 例
对10位应聘者做智能检验。3项指标X,Y 和Z分别表示数学推理能力,空间想象能 力和语言理解能力。其得分如下,选择合 适的统计方法对应聘者进行分类。
D2(1) G6={X1, X2} G3={X3}
G6 0 4
G3
G4
G5
0
G4={X4}
G5={X5}
30.25
56.25
12.25
30.25
0
4 0
D2(2)
G7
G7
0
G4
G5
G4
G5
20.25
42.25
0
4 0
D2(3)
G7={X1, X2,X3} G8={X4,X5 }
ห้องสมุดไป่ตู้G7
0 30.25
• x11• •
x21•
d12
• • •

递推公式
D(0)
表1
D(0) G1={X1} G2={X2} G3={X3} G4={X4} G1 0 1 2.5 6 0 1.5 5 0 3.5 0 G2 G3 G4 G5
G5={X5}
8
7
5.5
2
0
表2
D(1) G6={G1, G2} G3={X3} G4={X4} G5={X5} G6 0
Call
631.60 498.40 557.60 684.10 644.00 620.30 498.40 469.40 434.50 81.90 138.60 92.20 174.90 169.00 262.20 195.50 78.60 13.60 559.10 521.10
D(2)
表3
D(2) G7={G3, G6} G4={X4} G7 0 3.5 0 G4 G5
G5={X5}
5.5
2
0
D(3)
表4
D(3) G7 G8={G4,G5} G7 0 3.5 0 G8
聚类谱系图
最短距离法聚类的步骤
1、定义样品之间的距离,计算初始距离矩阵D(0)
2、找出D(0)中非对角线上的最小值,设为Dpq,将对应的
例1
:为了更深入了解我国人口的文化程度状况,现利用
1990年全国人口普查数据对全国30个省、直辖市、自治区 进行聚类分析。分析选用了三个指标:
(1)大学以上文化程度人口占全部人口的比例(DXBZ);
(2)初中文化程度的人口占全部人口的比(CZBZ);
(3)文盲半文盲人口占全部人口的比例(WMBZ)、
如果在某一步将类Gp与Gq类合并为Gr,任一类Gk和新 Gr的距离公式为:

时,由初等几何知就是上面三角形的中线。
D2(0)
G1={X1}
G1
0
G2
G3
G4
G5
G2={X2}
G3={X3} G4={X4} G5={X5}
1
6.25 36 64
0
2.25 25 49 0 12.25 30.25 0 4 0
将n个样品各作为一类
计算n个样品两两之间的距离,构成距离矩阵 合并距离最近的两类为一新类 计算新类与当前各类的距离。再合并、计算 ,直至只有一类为止
画聚类图,解释
类与类之间的距离
1.最短距离法(single linkage) 2.最长距离法(complete linkage) 3.中间距离法(median method) 4.重心法(centroid method) 5.类平均法(average linkage) 6.可变类平均法(flexible-beta method) 7.可变法 8.离差平方和法(Ward's minimumvariance method)
不同商品、不同用户及时地进行分类。
例如,当我们对企业的经济效益进行评价时,
建立了一个由多个指标组成的指标体系,由
于信息的重叠,一些指标之间存在很强的相
关性,所以需要将相似的指标聚为一类,从
而达到简化指标体系的目的。
八种层次聚类方法
(hierarchical clustering method)
层次聚类法是诸聚类分析方法中使用最多 的一种,按下列步骤进行:
G1 0 0.5 3.125 18 32
G2 0 1.125 12.5 24.5
G3
G4
G5
0 6.125 15.125 0 2 0
D2(1) G6={X1, X2} G3={X3} G4={X4} G5={X5}
G6 0 2.667 20.167 37.5
G3
G4
G5
0 6.125 15.125 0 2 0
G1 0 1 6.25 36 64
G2
G3
G4
G5
0 2.25 25 49 0 12.25 30.25 0 4 0
D2(1) G6={X1, X2} G3={X3} G4={X4} G5={X5}
G6 0 4.25 30.25 56.25
G3
G4
G5
0 12.25 30.25 0 4 0
D 2(2)
64
49
30.25
4
0
D2(1)
G6
G3 0
G4
G5
G6={X1, X2}
G3={X3}
0
4
G4={X4}
G5={X5}
30.25
56.25
12.25
30.25
0
4 0
D 2(2) G7={X1, X2 X3} G4={X4} G5={X3}
G7 0 23.36 46.69
G4 0 4
G5
0
D2(3)
(一)最短距离法 (single linkage,nearest neighbor)
x11•
x12•
d12
x21• x22•
类类间:两类间两两
样品距离最短
递推公式
例1
设抽取五个样品,每个样品只侧一个指标,他
们是 1,2 , 3.5 , 7 , 9,试用最短距离法对五个
样品进行分类。(样品间用绝对值距离)
DXBZ
9.30 4.67 .96 1.38 1.48 2.60 2.15 2.14 6.53 1.47 1.17 .88 1.23 .99 .98 .85 1.57 1.14 1.34 .79 1.24 .96 .78 .81 .57 1.67 1.10 1.49 1.61 1.85
CZBZ
30.55 29.38 24.69 29.24 25.47 32.32 26.31 28.46 31.59 26.43 23.74 19.97 16.87 18.84 25.18 26.55 23.16 22.57 23.04 19.14 22.53 21.65 14.65 13.85 3.85 24.36 16.85 17.76 20.27 20.66
D(1)
G3 G4 G5
2.5 6 8
0 3.5 5.5 0 2 0
D(2)
表3
D(2) G6 G7={G4,G5} G3={X3} G6 0 8 2.5 0 5.5 0 G7 G3
D(3)
表4
D(3) G7 G8={G3,G6} G7 0 8 0 G8
(三)中间距离法Median method
G6
G7
G3
G6={X1, X2 }
G7={X4 X5} G3={X3}
0
43.5 4.25 0 21.25 0
D2(3) G7={X4,X5} G8={X1, X2,X3}
G7 0 36.08
G8
0
(六)可变类平均法
类平均法的递推公式中,没有反映Gp类和Gq类的 距离有多大,进一步将其改进,加入D2Pq,并给 定系数<1,则类平均法的递推公式改为:
应聘者得分如下
应聘者 X Y Z 1 2 3 4 5 6 7 8 9 10
28 18 11 21 26 20 16 14 24 22 29 23 22 23 29 23 22 23 29 27 28 18 16 22 26 22 22 24 24 24
例如,对上市公司的经营业绩进行分类; 例如,根据经济信息和市场行情,客观地对
根据聚类图把30个样品分为四类能更好地反映 我国实际情况。
第一类:北京、天津、山西、辽宁、吉林、黑龙江、 上海。
其中大多是东部经济、文化较发达的地区。
第二类:安徽、宁夏、青海、甘肃、云南、贵州
其中大多数是西部经济、文化发展较慢的地区。
第三类:西藏。经济、文化较落后的地区。 第四类:其它省、直辖市、自治区。 经济、文化在全国处于中等水平。
D 2(2) G6={X1, X2 } G7={X4 X5} G3={X3}
G6 0 42.25 2.667
G7 0 13.5
相关主题