当前位置:文档之家› 聚类分析.ppt

聚类分析.ppt


一、概述
• 聚类的实质
• 根据样本(变量)间的亲疏关系将样本(变量)分为 类,相近的归为一类,差别较大的归为另一类。所获 得的分类应有一定的意义。
• 聚类分析的关键
• 亲疏关系的判别:相似性与距离(不相似性) • 分类数的确定:分多少类合适
聚类分析的应用
不同地区城镇居民收入和消费状况的分类研究。 区域经济及社会发展水平的分析及全国区域经 济综合评价 产品市场细分:按照消费者的需求特征分成不 同的细分市场 在儿童生长发育研究中,把以形态学为主的指 标归于一类,以机能为主的指标归于另一类
低估了类间距离。
介于两者间的距离
即为中间距离
J
DM2 J
1 2
DK2J
1 2
DL2J
1 4
DK2L
(四)类平均法
(average linkage between group)
K
M
L SPSS作为默认方法 ,称为 between-
groups linkage
DM2 J
nK nM
DK2J
nL nM
DL2J
聚类分析数据格式
k
二、距离与相似系数
• 样本间的亲疏关系通常用距离描述,变量间的亲疏关系 通常用相似系数或相关系数描述
• 不同测量尺度的数据,其距离的计算方法不同
(一)、距离:样本间的亲疏关系
• 距离的定义:
• 假使每个样品由p个变量描述,则每个样品都可以看成p维空间 中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j 样品之间的距离记为dij
第三章 聚类分析cluster
analysis
• 概述 • 距离与相似系数 • 系统聚类法
• (hierarchical clustering )
• 快速聚类法
• (k-means clustering)
• 变量聚类
聚类分析是多元分析的 主要方法之一,主要用 来对大量的样品或变量 进行分类,是初步数据 分析的重要工具之一。
= 2 =2
23 5
配合距离例
4种品牌的软饮料在4个方面的特性:是否可乐口味?是 否含有咖啡因?是否节食饮料?是否可口可乐公司产?
可乐味 咖啡因 节食 可口可乐
Coke
1
1
0
1
Pepsi
1
1
0
0
Diet Coke
1
1
1
1
Caffeine-free Diet Coke
距离矩阵 Coke
1
0
1
1
Coke Pepsi Diet Caf free
值的第p次幂值和的第r次根
数值标准化的方法选项
• None: 不标准化 • Z scores: 标准化 • Range -1 to 1: 标准化到-1到+1范围 • Maximum magnitude: 标准化到最大值1 • Range 0 to 1: 标准化到0-1范围 • Mean of 1: 标准化到一个均值范围 • Standard deviation of 1: 标准化到一个标准差
当q=2,即为欧式距离
当q=∞,有 dij ()
(Chebychev)距离
max
1k p
xik
x jk
, 称为切比雪夫
实例计算

距离矩阵
绝对值距离
p

dij (1) xik x jk
k 1
Euclidian距离的平方
2
Euclidian距离
明氏距离的缺点
• 各指标同等对待(权数相同),不能反映各指标变异程 度上的差异
DK2L
(七)各种系统聚类方法的统一
以上聚类方法的计算步骤完全相同,仅 类与类之间的定义不同。Lance和Williams 于1967年将其统一为:
DM2 J K DK2J L DL2J DK2L DK2J 获得的结果不一定相同

2类
谱系图不显示实 际距离,显示025的比例距离
Vertical Icicle
1: 2: 3: 4: 5: 6:
Number of clusters
冰柱图Case












朝 鲜 族
满 族
1
XXXXXXXXXXX
2
XXXXX
XXXXX
3
XXXXX
XXX
X
4
XXXXX
X
X
X
5
XXX
X
X
X
X
d
2 ij
(Xi
X j )' 1(Xi
Xj)
其中为p维随机向量的协方差矩阵
Mahalanobis 距离例
已知一二维正态总体G的分布为:G~N(,),
其中
μ
00,
Σ
1 0.9
01.9
A
分别求点A=(1,1)’, 和点B=(1,-1)到均值 的欧式距离和马氏距离
B
点A到μ的欧氏距离 12 12 2, 点B到μ的欧氏距离 12 12 2
Pepsi 1/4
Diet 1/4 2/4
Caf free 2/4 3/4 1/4
(二)相似系数:变量间的亲疏关系
1. 夹角余弦(Cosine)
受相似形的启发而来,AB和CD尽管 长度不一,但形状相似
C A
BD
n
xkixkj
Cij
k 1
n
n
[( xk2i )( xk2j )]1 2
k 1
• 距离的大小与各指标的观测单位有关,有时会出现不合 理结果(p7,图1-1例)
• 没有考虑指标之间的相关性
当各指标的测量值相差悬殊时,可以先 对数据标准化,然后用标准化后的数据 计算距离
3. 马氏(Mahalanobis) 距离
明氏距离没有考虑数据中的协方差模式,马 氏距离则考虑了协方差,且不受指标测量单 位的影响:
类与类间距离
Agglomerative Methods:各种不同方法的基本步骤相同, 只是类与类之间距离的计算方法不同。
类与类之间的距离
1.最短距离法(single linkage) 2.最长距离法(complete linkage) 3.中间距离法(median method) 4.类平均法(average linkage) 5.可变类平均法(flexible-beta method) 6.重心法(centroid method) 7.Ward离差平方和法(Ward's minimumvariance method)
J
其中D.2. 为欧氏距离的平方
n.为各类类中所含样品
(五)重心法(centroid method)
K
M
J
L 类与类间的距离用各自 重心间的欧式距离表示
DM2 J
nK nM
DK2J
nL nM
DL2J
nK nL nM2
DK2L
比中间距离多(
nK nL nM
DK2L )
(六)Ward最小方差法
(Ward’ minimum variance method)
距离标准化
聚类方法选项
• Between-group linkage: 类平均法,使两两项对之间的平 均距离最小
• Within-group linkage: 类内平均连锁,合并后的类中所 有项之间的平均距离最小。两类间的距离即是合并后的 类中所有可能的观测量对之间的距离平方。
• Nearest neighbor • Fartherst neighbor • Centroid clustering • Median clustering • Ward’s method
• 步骤1:将n个样品各作为一类,共n类:C1、 C2、…、 Cn。计算各类之间的距离,构成距离矩阵:dcicj=dij • 步骤2:找到距离最单近样的本类两,类类与合类并之为间的一距新离为类样品距离 • 步骤3:计算新类与当前各类的距离。 • 重复步骤2、3,直至合并成一类为止,形类成间谱距系离 图 • 根据谱系图确定如何分类
距离测度方法选项
• Interval:
• Euclidean distance • Squared euclidean distance • Cosine:变量矢量的余弦 • Chebychev • Block: Manhattan 距离,两观测单位间距离为其值差
的绝对值和,用于Q型聚类 • Minkowski • Customized: 距离是一个绝对幂的度量,即变量绝对
聚类状态表
相似矩阵 类成员:
Plot对话框
树状结构图 冰柱图
显示聚类的每一步
不生成冰柱图
冰柱的方向
指定显示的聚 类范围
Method对话框 距离测度方法:
不同尺度变量选 择不同方法
定距尺度变量
定序尺度变量
聚类方法选项
01变量
确定标准化的方法:只有前两
种尺度的数据才能标准化
测度转换方法
距离值取绝对值 相似度变为不相似度
源于方差分析。
类内离差平方和:类中各样品到类重心(均值)的 平方欧式距离之和。
基本思路:两类合并后,离差平方和就会增加。每 次选择使离差平方和增加(SSM-SSK-SSL) 最小的两类进行合并,直至所有的样品归为一类。
DM2 J
nJ nJ
nK nM
DK2J
nJ nL nJ nM
DL2J
nJ nJ nM
马氏等距离线
Σ 1
1 0.19
1 0.9
0.9 1
点A到μ的马氏距离
相关主题