当前位置:
文档之家› 聚类分析及其应用实例.ppt
聚类分析及其应用实例.ppt
Gp和Gq中相距最远的两个样本的距离为这两个类之间的距离。
Gp Gq
D pq ? max{ d ij | i ? G p , j ? G q }
类平均距离( average linkage ):
Gp和Gq中每两两样本间距离的平均值作为两个类之间的距离。
Gp Gq
?? D pq
?
1 t ptq
tp i?1
? 相似系数----常用于对变量的聚类
? Pearson相关系数:两个连续变量间呈线性相关 ? Spearman相关系数:利用两变量的秩次大小作线性相关分析 ? Kendall等级相关系数,。。。
凝聚的层次聚类示意图
C3
X4 X3
C4
X5 X2
X1
X1:Gibbon (长臂猿) X2:Symphalangus (合趾猿) X3:Human (人) X4:Gorilla (大猩猩) X5:Chimpanzee (黑猩猩)
tq
X (q) i i ?1
用Gp和Gq表示两个类,它们所包含的样本数目分别为tp和tq,类Gp和Gq之间
的距离用Dpq表示。
离差平方和法( ward method ):
各元素到类中心的欧式距离之和。
Gp
Cluster P
Cluster M
Cluster Q
Gq
D 2 ? WM ? W p ? Wq
凝聚的层次聚类示意图
Oh?
X4 X3
X5 X2
X1
X1:Gibbon (长臂猿) X2:Symphalangus (合趾猿) X3:Human (人) X4:Gorilla (大猩猩) X5:Chimpanzee (黑猩猩)
常用的聚类统计量
? 距离函数----用于对样品的聚类
? 欧式距离:两点之间的直线距离 ? 马氏距离:数据的协方差距离 ? 切比雪夫距离:两个向量之间的最大距离 ?曼哈顿距离 :运动物体走过的实际距离 ? 。。。。。。
聚类分析及其应用实例
Outlines
? 聚类的思想 ? 常用的聚类方法 ? 实例分析:层次聚类
1. 聚类的思想
Oh?
1. 聚类的思想
Oh!
1. 聚类的思想
? 聚类(clustering)是对物理的或抽象的对象集合分组的过程
? 即把“性质相似”或“相互关系密切”的样品或指标聚在一起。 ? 同一个类内样本之间彼此相似,不同类间的样本足够不相似。 ? 寻找数据中潜在的自然分组结构或感兴趣的关系。
a, b, c, d, e c, d, e d, e
a, b
分裂的(DIANA) 第0步 第1步 第2步
e
? 分裂的方法(自顶向下)
第0步
思想:一开始将所有的对象置于一类,凝聚的(AGENS)
第4步
在迭代的每一步中,一个类不断地分
为更小的类,直到每个对象在单独的
一个类中,或达到一个终止条件
步骤3
由D(2)知,合并X(3)和X(4)为一新类C(3)={X(3), X(4)},有:
?K-均值聚类方法
?系统聚类法---用于对小样本的样品间聚类及对指标聚类 。
?层次聚类
?模糊聚类法---建立在模糊数学基础上,适用于小样本 ?分割聚类法---适用于对指标聚类 ?……
3. 实例分析:层次聚类算法
定义:对给定的数据进行层次的分解
第4步
? 凝聚的方法(自底向上) 『常用』
思想:一开始将每个对象作为单独的 第 3步 一组,然后根据同类相近,异类相异 的原则,合并对象,直到所有的组合 第 2步 并成一个,或达到一个终止条件。 第 1步
构造: 样本间距离——欧氏距离; 类间距离——最短距离;
X(1)
X(2)
X(3)
X(4)
X(5)
X(1)
0
X(2)
X(3)
X(4)
X(5)
1
3.5
5
7
0
2.5
4
6
0
1.5
3.5
0
2
0
步骤 1
5个物种各自构成1类,得到5类,有:
初始分类G (1)={X(i)}(i=1, 2, 3, 4, 5) 初始类别数目m=5 初始类间距离矩阵D(1)
same color!
? 基本原理:将随机现象归类的统计学方法;
? 分类
? R型聚类:指标聚类,目的是指标降维从而选 择有代表性的指标;
? Pearson、Spearman系数
? Q型聚类:样本聚类,目的是找出样品间的共 性;
? 欧氏距离、绝对距离、马氏距离及明氏距离等。
2 常用的聚类分析方法
?逐步聚类法---用于对大样本的样品间聚类
X4 X3
X5 X2
X1
D(1)
X(1)
X(2)
X(3)
X(4)
X(5)
X(1)
0
X(2)
X(3)
X(4)
X(5)
1
3.5
5
7
0
2.5
4
6
0
1.5 3.5
0
2
0
步骤2
由D(1)知,合并X(1)和X(2)为新类C(4)={X(1), X(2)},有:
新的G (2)={X(3) , X(4) , X(5) , C(4)} 新的类别数目m=4 新的类间距离矩阵D(2)
tq
d ij
j?1
i? G p, j? Gq
几何中心距离( centroid linkage ):
用Gp和Gq两类几何中心的距离为两个类之间的距离。
Gp
Gq
? ? D pq ? d X ( p ) , X ( q )
? X ( p ) ?
1 tp
tp
X (p) i i ?1
? X ( q ) ?
1 tq
常用的类间距离
? 最短距离 ? 最长距离 ? 类平均距离 ? 几何平均距离 ? 离差平方和法
最短距离(single linkage ):
Gp和Gq中最邻近的两个样本的距离为这两个类之间的距离。
Gq Gp
D pq ? min{ d ij | i ? G p , j ? G q }
最长距离( complete linkage ):
D(2)
X(3)
X(4)
X(5)
X(3)
0
1.5 3.5
X(4)
0
2
X(5)
0
C(4)
C4
X2
X4 X3
X5
X1
C(4)
C(4)
2.5 4
6
0
D(1)
X(1) X(2) X(3) X(4) X(5)
X(1) 0 X(2) X(3) X(4) X(5)
1 3.5 5 7 0 2.5 4 6
0 1.5 3.5 02 0
凝聚的层次聚类法举例
已知:根据5种灵长类动物朊粒蛋白的氨基酸序列比较,得到它们之
间的距离矩阵(经过数据变换处理)。
X(1):Gibbon(长臂猿); X(2):Symphalangus(合趾猿); X(3) :Human(人); X(4) :Gorilla(大猩猩); X(5) :Chimpanzee(黑猩猩)