当前位置:文档之家› 第五章聚类分析..

第五章聚类分析..


4. Lance和Williams 距离
对标准化变量:
xik x jk 1 d ij p k 1 xik x jk
p
5. 配合距离
前几类距离多用于定距和定比尺度数据 ,对于定类和定序变量:
X 1 (V , Q, S , T , K ) X 2 (V , M , S , F , K ) m2 配合数 d12 不配合数 2 2 d12 m 1 m2 不配合数 配合数 2 2 = = 23 5
点A到μ的欧氏距离 12 12 2 , 点B到μ的欧氏距离 12 12 2
点A到μ的马氏距离
1 0.9 1 1 1 1 点B到μ的马氏距离 1.05 0 . 9 1 1 0.19
欧式等距离线
欧氏距离、标准化变量的欧式距 离与马氏距离的比较
μ 0 , Σ 0.9 1
A
B
分别求点A=(1,1)’, 和点B=(1,-1)到均值 的欧式距离和马氏距离
马氏等距离线
Σ 1 1 1 0.9 0.19 0.9 1 1 0.9 1 1 1 1 10 0.19 0.9 1 1
x2 x12 ① x22- x12
d 21 ( x21 x11 ) 2 ( x22 x12 ) 2
k 1 p
x22 x11
x21- x11 ② x21 x1
2. 明氏(Minkowski )距离
dij [ xik x jk ]
k 1 p 1 q q
q=2
q=1 q=∞
不配合数 配合数 23 5
配合距离例
4种品牌的软饮料在4个方面的特性:是否可乐口味?是 否含有咖啡因?是否节食饮料?是否可口可乐公司产?
可乐味 咖啡因 节食 可口可乐
Coke Pepsi Diet Coke Caffeine-free Diet Coke
距离矩阵
Coke Pepsi Diet Caf free
3. 马氏(Mahalanobis) 距离
明氏距离没有考虑数据中的协方差模式,马 氏距离则考虑了协方差,且不受指标测量单 位的影响:
2 dij ( Xi X j ) ' 1 ( Xi X j )
其中为p维随机向量的协方差矩 阵
Mahalanobis 距离例
已知二维正态总体G的分布为:G~N(,),其 中 0.9 0 1
变量聚类
一、概述
聚类的实质
根据样本(变量)间的亲疏关系将样本(变量)分 为类,相近的归为一类,差别较大的归为另一类。 所获得的分类应有一定的意义。
聚类分析的关键
亲疏关系的判别:相似性与距离(不相似性) 分类数的确定:分多少类合适
聚类分析的应用
不同地区城镇居民收入和消费状况的分类研究。 区域经济及社会发展水平的分析及全国区域经 济综合评价 产品市场细分:按照消费者的需求特征分成不 同的细分市场
快速聚类(k-means clustering)
模糊聚类
聚类分析数据格式
k
二、距离与相似系数
样本间的亲疏关系通常用距离描述,变 量间的亲疏关系通常用相似系数或相关 系数描述
不同测量尺度的数据,其距离的计算方 法不同
(一)、距离:样本间的亲疏关系
距离的定义:
假设每个样品由p个变量描述,则每个样品 都可以看成p维空间中的一个点,n个样品就 是p维空间中的n个点,则第i样品与第j样品 之间的距离记为dij
dij满足下列条件
dij≥0
dii =0
dij = dji dij ≤ dik + dkj
1. 欧式(Euclidian )距离
d ij ( xi1 x j1 ) 2 ( xi 2 x j 2 ) 2 ( xip x jp ) 2 [ ( xik x jk ) 2 ]1 2
在儿童生长发育研究中,把以形态学为主的指 标归于一类,以机能为主的指标归于另一类
聚类分析的类型
根据分类的对象
Q型聚类(即样本聚类clustering for individuals) R型聚类(变量聚类clustering for variables)
根据分类的方法:
系统聚类(hierarchical clustering )
x
k 1 n k 1
ki kj n
x
2 2 12 [( xki )( xkj )] k 1
当q=1, dij (1) xik x jk 为绝对值距离,SPSS称为block
p
当q=2,即为欧式距离
当q=∞,有 dij () max xik x jk 1 k p (Chebychev)距离 , 称为切比雪夫
k 1
实例计算

距离矩阵
绝对值距离

dij (1) xik x jk
1 1 1 1
1 1 1 0
0 0 1 1
1 0 1 1
Coke Pepsi Diet Caf free 1/4 1/4 2/4 2/4 3/4 1/4
(二)相似系数:变量间的亲疏关系
1. 夹角余弦(Cosine)
受相似形的启发而来,AB和CD尽管 长度不一,但形状相似 A C B D
n
Cij
k 1 p

Euclidian距离的平方
2
Euclidian距离
明氏距离的缺点
各指标同等对待(权数相同),不能反 映各指标变异程度上的差异 距离的大小与各指标的观测单位有关, 有时会出现不合理结果
没有考虑指标之间的相关性
当各指标的测量值相差悬殊时,可以先 对数据标准化,然后用标准化后的数据 计算距离
第五章
概述
聚类分析cluster analysis
聚类分析是多元分析的 主要方法之一,主要用 来对大量的样品或变量 进行分类,是初步数据 分析的重要工具之一。
距离与相似系数
系统聚类法
(hierarchical clustering )
快速聚类法
(k-means clustering)
相关主题