当前位置：文档之家› 应用多元统计分析-第五章聚类分析

应用多元统计分析-第五章聚类分析

聚类分析
1
第五章把对象分类 ——聚类分析
2
分类
俗语说，物以类聚、人以群分。当有一个分类指标时，分类比较容易。但是当有多个指标，要进行分类就不是很容易了。比如，要想把中国的县分成若干类，可以按照自然条件来分：考虑降水、土地、日照、湿度等各方面；也可以考虑收入、教育水准、医疗条件、基础设施等指标；

14
对指标标准化的方法
15
明氏距离的缺点

另一个缺点：它没有考虑到指标之间的相关性。改进的方法是：采用马氏距离马氏距离是1936年由印度数学家：马哈拉比斯由协方差矩阵计算构造的距离。
16
距离矩阵
计算任何两个样品 X i 与 X j 之间的距离 d ij ，其值越小表示两
d 个样品接近程度越大， ij 值越大表示两个样品接近程度越小。
29
八种系统聚类方法

最短距离法最长距离法中间距离法重心法类平均法可变类平均法可变法离差平方和法

系统聚类分析尽管方法很多，但归类的步骤基本上是一样的，所不同的仅是类与类之间的距离有不同的定义方法，从而得到不同的计算距离的公式。这些公式在形式上不大一样，但最后可将它们统一为一个公式，对上机计算带来很大的方便。
30
系统聚类法

最短距离法——Nearest Neighbor
G1
G1 G2 G3 G4 G5 0 1 2.5 6 8
G2
G3
G4
G5 G6 G3 G4 G5
0
G6
G3
G4
G5
0 1.5 5 7
0 3.5 5.5
0 2
0 1.5 0 5 3.5 7 5. 5
0 2
0
31
系统聚类法

最长距离法——Furthest Neighbor
19
夹角余弦—cosine
将任何两个样品 X i 与 X j 看成 p 维空间的两个向量，这两个向量的夹角余弦用 cos ij 表示。则
p
cos ij
x
k 1 p k 1
ik
x jk
p
2 xik x 2 jk k 1
当 cos ij =1，说明两个样品 X i 与 X
j
6
如何聚类？

聚类分析就是要找出具有相近程度的点或类聚为一类；如何衡量这个“相近程度”？一种方法是用相似系数，性质越接近的样品，它们的相似系数的绝对值越接近1，而彼此无关的样品，它们的相似系数的绝对值越接近于零。比较相似的样品归为一类，不怎么相似的样品归为不同的类。另一种方法是将一个样品看作p维空间的一个点，并在空间定义距离，距离越近的点归为一类，距离较远的点归为不同的类。

37
系统聚类法

Gt
中样品的离差平方和为：
38
系统聚类法
如有五个样品：1， 2， 3.5， 7， 9 第一步：将五个样品各自分成一类，显然这时的类内离差平方和S=0；第二步：将一切可能的任意两样品合并，计算所增加的离差平方和：如

39
G1 G1 G2 G3 G4 G5
G2
G3
2 36
34
系统聚类法

重心法——Centroid Clustering 重心法定义两类之间的距离就是两类重心的距离。设 Gp和Gq 的重心（即该类样品的均值）分别是 X p 和X q （注意一般他们是p维向量），则 Gp 和Gq 之间的距离是
2 D D D D pq 计算公式为： nr nr nr nr 2 kr 2 kp 2 kq
4
聚类分析
对于一个数据，人们既可以对变量（指标）进行

分类(相当于对数据中的列分类)，也可以对观测值（事件，样品）来分类（相当于对数据中的行分类）。对变量的聚类称为R型聚类，而对观测值聚类称为 Q型聚类。这两种聚类在数学上是对称的，没有什么不同。
5
聚类中选择变量的要求

和聚类分析的目标密切相关反映了要分类对象的特征变量之间不应该高度相关。
G4
G5
0 0.5 0 3.125 1.123 0 18 12.5 6.125 32 24.5 12.125
0 2
0
此外，还有类内平均法等。
40
SPSS中的聚类分析与过程
41
例9.1
饮料数据（drink.sav ）
•16种饮料的热量、咖啡因、钠及价格四种变量
42
SPSS中的聚类分析

Spss中的聚类功能常用的有两种：快速聚类（迭代过程）： K-Means Cluster 分层聚类：Hierarchical
cos 12 cos 22 cos n 2
cos 22
cos 1n cos 2 n cos nn cos nn 1 ，
是一个实
对称阵，所以只须计算上三角形部分或下三角形部分，根据可对 n 个样品进行分类，把比较相似的样品归为一类，不怎么相似的样品归为不同的类。
2 kr

G p和Gq合并为Gr，则任一类Gk 与Gr的距离为：
np nr
D
2 kp
nq nr
2 Dkq
36
系统聚类法
离差平方和法——Word’s Method Word’s法的基本思想是来自于方差分析，如果分类正确，同类样品的离差平方和应当较小，类与类的离差平方和应当较大。具体方法：先将n个样品各自成一类，然后每次缩小一类；每缩小一类离差平方和就要增大，选择使离差平方和增加最小的两类合并，直到所有的样品归为一类为止。

3
聚类分析
由于不同的指标项对重要程度或依赖关系是相互不同的，所以也不能用平均的方法，因为这样会忽视相对重要程度的问题。所以需要进行多元分类，即聚类分析。最早的聚类分析是由考古学家在对考古分类中研究中发展起来的，同时又应用于昆虫的分类中，此后又广泛地应用在天气、生物等方面。

本章主要介绍常用的系统聚类法。
25
系统聚类法
26
系统聚类法的基本思想

先将每个研究对象(样品或指标)各自看成一类。然后根据对象间的相似度量，将h类中最相似的两类合并，组成一个新类，这样得到h-1类，再在这 h-1类中找出最相似的两类合并，得到h-2类，如此下去，直至将所有的对象并成一个大类为止。当然，真的合并成一个类就失去了聚类的意义，所以上面的聚类过程应该在某个类水平数（即未合并的类数）停下来，最终的类就取这些未合并的类。决定聚类个数是一个很复杂的问题。
2 kr
33
系统聚类法-中间法
G1
G1 G2 G3 G4 G5 0 1 2.5 6 8
G2
G3
G4
G5
G6 G3 0 3.5 5. 5 0 2 G4 G5 G6 G3 G4 G5 0 1.75 5.50 7.25
0 1.5 5 7
0 3.5 5.5
0 2
0
1 2 1 2 1 2 1 1 1 D D31 D32 D12 2.5 1.5 1 1.75 2 2 4 2 2 4
21

相关系数
通常所说相关系数，一般指变量间的相关系数，作为刻划样品间的相似关系也可类似给出定义，即第 i 个样品与第 j 个样品之间的相关系数定义为：
rij
(x
k 1 p k 1
p
ik
பைடு நூலகம்
xi )( x jk x j )
p
( xik xi ) 2 ( x jk x j ) 2
27
系统聚类法的步骤
可选择适当的距离，计算距离把每个样品看成一类，构造n个类
合并最近的两类为一新类
采用系统聚类法
计算新类与当前各类的距离
不是仅有一个类判断仅有一个类
画聚类图
根据实际情况，确定类和类的个数
28
系统聚类法

正如样品之间的距离可以有不同的定义方法一样，类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离，或者定义为两类之间最远样品的距离，也可以定义为两类重心之间的距离等等。类与类之间用不同的方法定义距离，就产生了不同的系统聚类方法。
k 1
r 实际上， ij 就是两个向量 X i X i 与 X j X j 的夹角余弦，其
中 X i ( xi , xi , , xi ) ， X 据标准化，则 X i X
j j
( x j , x j , , x j ) 。若将原始数
＝ cos ij 。
22
0 ，这时 rij
43
Hierarchical Cluster聚类

分层聚类由两种方法：分解法和凝聚法。分层聚类的功能：即可进行样品的聚类，也可进行变量的聚类。分层聚类的原理：即我们前面介绍过的系统聚类方法的原理和过程。
44
Hierarchical Cluster聚类

分层聚类的中要进行以下的选择：数据的标准化测度方法的选择：距离方法的选择或相似性、关联程度的选择。聚类方法的选择：即以什么方法聚类，spss中提供了7中方法可进行选择。输出图形的选择：树形图或冰柱图。
G1
G1 G2 G3 G4 G5 0 1 2.5 6 8
G2
G3
G4
G5 G6 G3 G4 G5
0
G6
G3
G4
G5
0 1.5 5 7
0 3.5 5.5

e商务文档

应用多元统计分析-第五章聚类分析

相关文档推荐：

e商务文档

应用多元统计分析-第五章 聚类分析

相关文档推荐：

应用多元统计分析-第五章聚类分析