当前位置：文档之家› 聚类分析.ppt

聚类分析.ppt

一、概述
• 聚类的实质
• 根据样本（变量）间的亲疏关系将样本（变量）分为类，相近的归为一类，差别较大的归为另一类。所获得的分类应有一定的意义。
• 聚类分析的关键
• 亲疏关系的判别：相似性与距离（不相似性） • 分类数的确定：分多少类合适
聚类分析的应用
不同地区城镇居民收入和消费状况的分类研究。区域经济及社会发展水平的分析及全国区域经济综合评价产品市场细分：按照消费者的需求特征分成不同的细分市场在儿童生长发育研究中，把以形态学为主的指标归于一类，以机能为主的指标归于另一类
低估了类间距离。
介于两者间的距离
即为中间距离
J
DM2 J
1 2
DK2J
1 2
DL2J
1 4
DK2L
（四）类平均法
(average linkage between group)
K
M
L SPSS作为默认方法，称为 between-
groups linkage
DM2 J
nK nM
DK2J
nL nM
DL2J
聚类分析数据格式
k
二、距离与相似系数
• 样本间的亲疏关系通常用距离描述，变量间的亲疏关系通常用相似系数或相关系数描述
• 不同测量尺度的数据，其距离的计算方法不同
（一）、距离：样本间的亲疏关系
• 距离的定义：
• 假使每个样品由p个变量描述，则每个样品都可以看成p维空间中的一个点，n个样品就是p维空间中的n个点，则第i样品与第j 样品之间的距离记为dij
第三章聚类分析cluster
analysis
• 概述 • 距离与相似系数 • 系统聚类法
• (hierarchical clustering )
• 快速聚类法
• (k-means clustering)
• 变量聚类
聚类分析是多元分析的主要方法之一，主要用来对大量的样品或变量进行分类，是初步数据分析的重要工具之一。
＝ 2 ＝2
23 5
配合距离例
4种品牌的软饮料在4个方面的特性：是否可乐口味？是否含有咖啡因？是否节食饮料？是否可口可乐公司产？
可乐味咖啡因节食可口可乐
Coke
1
1
0
1
Pepsi
1
1
0
0
Diet Coke
1
1
1
1
Caffeine-free Diet Coke
距离矩阵 Coke
1
0
1
1
Coke Pepsi Diet Caf free
值的第p次幂值和的第r次根
数值标准化的方法选项
• None: 不标准化 • Z scores: 标准化 • Range -1 to 1: 标准化到-1到+1范围 • Maximum magnitude: 标准化到最大值1 • Range 0 to 1: 标准化到0-1范围 • Mean of 1: 标准化到一个均值范围 • Standard deviation of 1: 标准化到一个标准差
当q=2，即为欧式距离
当q=∞，有 dij ()
（Chebychev）距离
max
1k p
xik
x jk
, 称为切比雪夫
实例计算
品
距离矩阵
绝对值距离
p
品
dij (1) xik x jk
k 1
Euclidian距离的平方
2
Euclidian距离
明氏距离的缺点
• 各指标同等对待（权数相同），不能反映各指标变异程度上的差异
DK2L
（七）各种系统聚类方法的统一
以上聚类方法的计算步骤完全相同，仅类与类之间的定义不同。Lance和Williams 于1967年将其统一为：
DM2 J K DK2J L DL2J DK2L DK2J 获得的结果不一定相同
最
2类
谱系图不显示实际距离，显示025的比例距离
Vertical Icicle
1: 2: 3: 4: 5: 6:
Number of clusters
冰柱图Case
哈
维
萨
藏
吾
蒙
克
族
尔
族
族
族
朝鲜族
满族
1
XXXXXXXXXXX
2
XXXXX
XXXXX
3
XXXXX
XXX
X
4
XXXXX
X
X
X
5
XXX
X
X
X
X
d
2 ij
(Xi
X j )' 1(Xi
Xj)
其中为p维随机向量的协方差矩阵
Mahalanobis 距离例
已知一二维正态总体G的分布为：G～N（,）,
其中
μ
00,
Σ
1 0.9
01.9
A
分别求点A=(1,1)’, 和点B=(1,-1)到均值的欧式距离和马氏距离
B
点A到μ的欧氏距离 12 12 2, 点B到μ的欧氏距离 12 12 2
Pepsi 1/4
Diet 1/4 2/4
Caf free 2/4 3/4 1/4
（二）相似系数：变量间的亲疏关系
1. 夹角余弦（Cosine）
受相似形的启发而来，AB和CD尽管长度不一，但形状相似
C A
BD
n
xkixkj
Cij
k 1
n
n
[( xk2i )( xk2j )]1 2
k 1
• 距离的大小与各指标的观测单位有关，有时会出现不合理结果（p7,图1-1例）
• 没有考虑指标之间的相关性
当各指标的测量值相差悬殊时，可以先对数据标准化，然后用标准化后的数据计算距离
3. 马氏(Mahalanobis) 距离
明氏距离没有考虑数据中的协方差模式，马氏距离则考虑了协方差，且不受指标测量单位的影响：
类与类间距离
Agglomerative Methods：各种不同方法的基本步骤相同，只是类与类之间距离的计算方法不同。
类与类之间的距离
1.最短距离法(single linkage) 2.最长距离法(complete linkage) 3.中间距离法(median method) 4.类平均法(average linkage) 5.可变类平均法(flexible-beta method) 6.重心法(centroid method) 7.Ward离差平方和法(Ward's minimumvariance method)
J
其中D.2. 为欧氏距离的平方
n.为各类类中所含样品
（五）重心法(centroid method)
K
M
J
L 类与类间的距离用各自重心间的欧式距离表示
DM2 J
nK nM
DK2J
nL nM
DL2J
nK nL nM2
DK2L
比中间距离多(
nK nL nM
DK2L )
（六）Ward最小方差法
(Ward’ minimum variance method)
距离标准化
聚类方法选项
• Between-group linkage: 类平均法,使两两项对之间的平均距离最小
• Within-group linkage: 类内平均连锁，合并后的类中所有项之间的平均距离最小。两类间的距离即是合并后的类中所有可能的观测量对之间的距离平方。
• Nearest neighbor • Fartherst neighbor • Centroid clustering • Median clustering • Ward’s method
• 步骤1：将n个样品各作为一类，共n类：C1、 C2、…、 Cn。计算各类之间的距离，构成距离矩阵：dcicj=dij • 步骤2：找到距离最单近样的本类两，类类与合类并之为间的一距新离为类样品距离 • 步骤3：计算新类与当前各类的距离。 • 重复步骤2、3，直至合并成一类为止，形类成间谱距系离图 • 根据谱系图确定如何分类
距离测度方法选项
• Interval:
• Euclidean distance • Squared euclidean distance • Cosine：变量矢量的余弦 • Chebychev • Block: Manhattan 距离，两观测单位间距离为其值差
的绝对值和，用于Q型聚类 • Minkowski • Customized: 距离是一个绝对幂的度量，即变量绝对
聚类状态表
相似矩阵类成员：
Plot对话框
树状结构图冰柱图
显示聚类的每一步
不生成冰柱图
冰柱的方向
指定显示的聚类范围
Method对话框距离测度方法：
不同尺度变量选择不同方法
定距尺度变量
定序尺度变量
聚类方法选项
01变量
确定标准化的方法：只有前两
种尺度的数据才能标准化
测度转换方法
距离值取绝对值相似度变为不相似度
源于方差分析。
类内离差平方和：类中各样品到类重心（均值）的平方欧式距离之和。
基本思路：两类合并后，离差平方和就会增加。每次选择使离差平方和增加（SSM－SSK－SSL）最小的两类进行合并，直至所有的样品归为一类。
DM2 J
nJ nJ
nK nM
DK2J
nJ nL nJ nM
DL2J
nJ nJ nM
马氏等距离线
Σ 1
1 0.19
1 0.9
0.9 1
点A到μ的马氏距离

e商务文档

聚类分析.ppt

相关文档推荐：