当前位置:文档之家› 应用多元统计分析-第五章 聚类分析

应用多元统计分析-第五章 聚类分析

聚类分析
1
第五章 把对象分类 ——聚类分析
2
分类
俗语说,物以类聚、人以群分。 当有一个分类指标时,分类比较容易。 但是当有多个指标,要进行分类就不是很 容易了。 比如,要想把中国的县分成若干类,可以 按照自然条件来分:考虑降水、土地、日照、 湿度等各方面; 也可以考虑收入、教育水准、医疗条件、 基础设施等指标;

14
对指标标准化的方法
15
明氏距离的缺点

另一个缺点:它没有考虑到指标之间的相关性。 改进的方法是:采用马氏距离 马氏距离是1936年由印度数学家:马哈拉比斯由协方差 矩阵计算构造的距离。
16
距离矩阵
计算任何两个样品 X i 与 X j 之间的距离 d ij ,其值越小表示两
d 个样品接近程度越大, ij 值越大表示两个样品接近程度越小。
29
八种系统聚类方法





最短距离法 最长距离法 中间距离法 重心法 类平均法 可变类平均法 可变法 离差平方和法

系统聚类分析尽管方法很 多,但归类的步骤基本上 是一样的,所不同的仅是 类与类之间的距离有不同 的定义方法,从而得到不 同的计算距离的公式。这 些公式在形式上不大一样, 但最后可将它们统一为一 个公式,对上机计算带来 很大的方便 。
30
系统聚类法

最短距离法——Nearest Neighbor
G1
G1 G2 G3 G4 G5 0 1 2.5 6 8
G2
G3
G4
G5 G6 G3 G4 G5
0
G6
G3
G4
G5
0 1.5 5 7
0 3.5 5.5
0 2
0 1.5 0 5 3.5 7 5. 5
0 2
0
31
系统聚类法

最长距离法——Furthest Neighbor
19
夹角余弦—cosine
将任何两个样品 X i 与 X j 看成 p 维空间的两个向量,这两 个向量的夹角余弦用 cos ij 表示。则
p
cos ij
x
k 1 p k 1
ik
x jk
p
2 xik x 2 jk k 1
当 cos ij =1,说明两个样品 X i 与 X
j
6
如何聚类?


聚类分析就是要找出具有相近程度的点或类聚为 一类; 如何衡量这个“相近程度”? 一种方法是用相似系数,性质越接近的样品,它 们的相似系数的绝对值越接近1,而彼此无关的样 品,它们的相似系数的绝对值越接近于零。比较 相似的样品归为一类,不怎么相似的样品归为不 同的类。 另一种方法是将一个样品看作p维空间的一个点, 并在空间定义距离,距离越近的点归为一类,距 离较远的点归为不同的类。

37
系统聚类法

Gt
中样品的离差平方和为:
38
系统聚类法
如有五个样品:1, 2, 3.5, 7, 9 第一步:将五个样品各自分成一类,显 然这时的类内离差平方和S=0; 第二步:将一切可能的任意两样品合并, 计算所增加的离差平方和: 如

39
G1 G1 G2 G3 G4 G5
G2
G3
2 36
34
系统聚类法

重心法——Centroid Clustering 重心法定义两类之间的距离就是两类重心的距离。 设 Gp和Gq 的重心(即该类样品的均值)分别是 X p 和X q (注意一般他们是p维向量),则 Gp 和Gq 之间的距离是
2 D D D D pq 计算公式为: nr nr nr nr 2 kr 2 kp 2 kq
4
聚类分析
对于一个数据,人们既可以对变量(指标)进行

分类(相当于对数据中的列分类),也可以对观测 值(事件,样品)来分类(相当于对数据中的行 分类)。 对变量的聚类称为R型聚类,而对观测值聚类称为 Q型聚类。这两种聚类在数学上是对称的,没有什 么不同。
5
聚类中选择变量的要求

和聚类分析的目标密切相关 反映了要分类对象的特征 变量之间不应该高度相关。
G4
G5
0 0.5 0 3.125 1.123 0 18 12.5 6.125 32 24.5 12.125
0 2
0
此外,还有类内平均法等。
40
SPSS中的聚类 分析与过程
41
例9.1
饮料数据(drink.sav )
•16种饮料的热量、咖啡因、钠及价格四种变量
42
SPSS中的聚类分析


Spss中的聚类功能常用的有两种: 快速聚类(迭代过程): K-Means Cluster 分层聚类:Hierarchical
cos 12 cos 22 cos n 2
cos 22
cos 1n cos 2 n cos nn cos nn 1 ,
是一个实
对称阵,所以只须计算上三角形部分或下三角形部分,根据 可对 n 个样品进行分类,把比较相似的样品归为一类,不怎么 相似的样品归为不同的类。
2 kr

G p和Gq合并为Gr,则任一类Gk 与Gr的距离为:
np nr
D
2 kp
nq nr
2 Dkq
36
系统聚类法
离差平方和法——Word’s Method Word’s法的基本思想是来自于方差分析,如果分 类正确,同类样品的离差平方和应当较小,类与 类的离差平方和应当较大。 具体方法: 先将n个样品各自成一类,然后每次缩小一类; 每缩小一类离差平方和就要增大,选择使离差平 方和增加最小的两类合并,直到所有的样品归为 一类为止。

3
聚类分析
由于不同的指标项对重要程度或依赖关系 是相互不同的,所以也不能用平均的方法, 因为这样会忽视相对重要程度的问题。 所以需要进行多元分类,即聚类分析。 最早的聚类分析是由考古学家在对考古分 类中研究中发展起来的,同时又应用于昆虫 的分类中,此后又广泛地应用在天气、生物 等方面。

本章主要介绍常用的系统聚类法。
25
系统聚类法
26
系统聚类法的基本思想


先将每个研究对象(样品或指标)各自看成一类。 然后根据对象间的相似度量,将h类中最相似的两 类合并,组成一个新类,这样得到h-1类,再在这 h-1类中找出最相似的两类合并,得到h-2类,如 此下去,直至将所有的对象并成一个大类为止。 当然,真的合并成一个类就失去了聚类的意义, 所以上面的聚类过程应该在某个类水平数(即未 合并的类数)停下来,最终的类就取这些未合并 的类。决定聚类个数是一个很复杂的问题。
2 kr
33
系统聚类法-中间法
G1
G1 G2 G3 G4 G5 0 1 2.5 6 8
G2
G3
G4
G5
G6 G3 0 3.5 5. 5 0 2 G4 G5 G6 G3 G4 G5 0 1.75 5.50 7.25
0 1.5 5 7
0 3.5 5.5
0 2
0
1 2 1 2 1 2 1 1 1 D D31 D32 D12 2.5 1.5 1 1.75 2 2 4 2 2 4
21

相关系数
通常所说相关系数,一般指变量间的相关系数,作为刻划 样品间的相似关系也可类似给出定义,即第 i 个样品与第 j 个 样品之间的相关系数定义为:
rij
(x
k 1 p k 1
p
ik
பைடு நூலகம்
xi )( x jk x j )
p
( xik xi ) 2 ( x jk x j ) 2
27
系统聚类法的步骤
可选择适当的距离,计算距离 把每个样品看成一类,构造n个类
合并最近的两类为一新类
采用系统聚类法
计算新类与当前各类的距离
不是仅有一个类 判断 仅有一个类
画聚类图
根据实际情况,确定类和类的个数
28
系统聚类法

正如样品之间的距离可以有不同的定义方法一样, 类与类之间的距离也有各种定义。 例如可以定义类与类之间的距离为两类之间最近 样品的距离,或者定义为两类之间最远样品的距 离,也可以定义为两类重心之间的距离等等。类 与类之间用不同的方法定义距离,就产生了不同 的系统聚类方法。
k 1
r 实际上, ij 就是两个向量 X i X i 与 X j X j 的夹角余弦,其
中 X i ( xi , xi , , xi ) , X 据标准化,则 X i X
j j
( x j , x j , , x j ) 。若将原始数
= cos ij 。
22
0 ,这时 rij
43
Hierarchical Cluster聚类

分层聚类由两种方法:分解法和凝聚法。 分层聚类的功能:即可进行样品的聚类,也可进 行变量的聚类。 分层聚类的原理:即我们前面介绍过的系统聚类 方法的原理和过程。
44
Hierarchical Cluster聚类

分层聚类的中要进行以下的选择: 数据的标准化 测度方法的选择:距离方法的选择或相似性、关 联程度的选择。 聚类方法的选择:即以什么方法聚类,spss中提 供了7中方法可进行选择。 输出图形的选择:树形图或冰柱图。
G1
G1 G2 G3 G4 G5 0 1 2.5 6 8
G2
G3
G4
G5 G6 G3 G4 G5
0
G6
G3
G4
G5
0 1.5 5 7
0 3.5 5.5
相关主题