模式识别-聚类分析
《模式识别》 第二章 聚类分析
余莉
2.1 聚类的基本概念
2.1.1聚类分析的基本思想
Clustering Analysis
据相似程度分类
无监督分类(Unsupervised)
x 2 似圆度
x1
2
2.1 聚类的基本概念 2.1.2 特征量的类型 物理量:直接反映特征的实际物理意义
如:长度、重量、速度等。处理前需要离散化。
2 d E ( A, M ) 2
由分布函数知,A、B两点的概率密度分别为
p(1, 1) 0.2157
p(1, 1) 0.00001658
16
2.2.2 相 似 测 度
• 重点考虑两矢量的方向是否相近,而忽略矢量长度。
(1) 角度相似系数(夹角余弦) 矢量之间的相似性可用它们的夹角余弦来度量 x'y x'y cos( x , y ) 1/ 2 x y [( x ' x )( y ' y )] (2) 相关系数 数据中心化后的矢量夹角余弦 ( x x ) '( y y ) r ( x , y ) 1/ 2 [( x x ) '( x x )( y y ) '( y y )] 性质:相关系数具有坐标系平移、旋转、比例不变性。
2
是它们的互协方差阵,则它们间的马氏距离定义为
1 d ( x, y) ( x y) ' C ( x y)
当、V、C为单位矩阵时,马氏距离欧氏距离。 对于正态分布,等概率密度点轨迹是到均值矢量的 马氏距离为常数的点所构成的超椭球面。
15
例2.1
已知一个二维正态母体G的分布为
羊,狗,猫, 鲨鱼
蜥蜴,蛇, 麻雀,海鸥, 金鱼,青蛙
金鱼, 鲨鱼
羊,狗,猫,蜥 蜴,蛇,麻雀, 海鸥,青蛙
(a)繁衍后代的方式
羊,狗,猫, 蜥蜴,蛇,麻 雀,海鸥, (c) 生存环境 金鱼, 鲨鱼
青蛙
(b) 肺的存在 蜥蜴,蛇, 金鱼 麻雀,海 鸥,青蛙 羊,狗, 鲨鱼 猫,
(d)繁衍后代的方式和是否存在肺
2a 2x ' y m( x , y ) 2a b c x ' x y ' y
只对(1-1)匹配加权 (1-1)匹配特征数目与特征总数之比
(3) 简单匹配系数 (1-1)匹配+(0-0)匹配/特征总数 (4) Dice系数
(5) Kulzinsky系数 (1-1)匹配/ (1-0)匹配+(0-1)匹配
17
相关系数具有坐标系平移、旋转、比例变换不变性
证明: (作业)
设,有旋转、平移变换: y Rx t
t 其中,R是旋转变换矩阵(即正交矩阵), 则有 R ' R, R ' R I
是平移矢量。
( y1 y1 ) '( y2 y2 ) [( Rx1 t ) ( Rx1 t )]'[( Rx2 t ) ( Rx2 t )] ( x1 x1 ) ' R ' R( x2 x2 ) ( x1 x1 ) '( x2 x2 )
(1) 特征选取不当或不足使分类无效; (2) 特征选取过多可能有害无益,且增加分析负担。
x2 2 x2
1 2
1 x1
3 (b) x1
4
(a)
2.1 聚类的基本概念
(3) 特征量纲对聚类结果的影响
年龄
60
年龄
60
30
30
5
10
财富(万)
5
10
财富(十万)
5
2.1 聚类的基本概念
2.1.4聚类准则对聚类结果的影响
(triangular inequality)
9
(一)距离测度(差值测度) 设 x ( x1 , x2 ,, xn ) ' ,y ( y1 , y2 , , yn ) ' ⑴ 欧氏(Euclidean)距离 n d ( x , y ) x y [ ( xi yi )2 ]1/ 2
i 1
(5) Cambera距离(Lance距离、Willims距离)
n | xi yi | d ( x, y) i 1 | xi yi |
( xi , yi 0, xi yi 0)
该距离能克服量纲的影响, 但不能克服分量间的相关性。
11
(一)距离测度(差值测度) (6)马氏(Mahalanobis)距离 2 1 d ( xi , x j ) ( xi x j )'V ( xi x j )
a x'y m( x , y ) b c x ' x y ' y 2x ' y
18
(3) 指数相关系数
( xi yi )2 3 1 e( x , y ) exp[ ] 2 n i 1 4 i 和 y 的维数n相同、概率分布相同。 这里假设 x i2是第i个分量的方差。
n
性质:不受量纲变化的影响。
19
(三) 匹 配 测 度
若特征只有两个状态: 0 => 有此特征;1 => 无此特征。称之为二值特征。 对于给定的二值特征矢量x和y中的某两个相对应的分 量 x i与 y j 若xi=1,yj=1 ,则称 xi与yj (1-1)匹配; 若xi=1,yj=0 ,则称 (1-0)匹配; 若xi=0,yj=1 ,则称 (0-1)匹配; 若xi=0,yj=0 ,则称 (0-0)匹配。 对于二值n维特征矢量可定义如下相似性测度:
20
(三) 匹 配 测 度
令 a xi yi
b yi (1 xi ) c xi (1 yi ) e (1 xi )(1 yi )
i i i i
(1-1)匹配的特征数目 (0-1)匹配的特征数目 (1-0)匹配的特征数目
(0-0)匹配的特征数目
(1) Tanimoto测度
6
2.1 聚类的基本概念
2.1.5 距离测度对聚类结果的影响
数据的粗聚类是两类,细聚类为4类
7
2.2 模式相似性测度
2.2.1 距 离 测 度
2.2.2 相 似 测 度 2.2.3 匹 配 测 度
8
2.2.1 距离测度(差值测度)
Distance (or Dissimilarity) Measure
其中
1 m V ( xi x )( xi x ) ' (协方差矩阵的 m 1 i 1 无偏估计) 1 m x xi (均值向量的估计) m i 1
性质:对一切非奇异线性变换都是不变的。 即,具有坐标系比例、旋转、平移不变性, 并且从统计意义上尽量去掉了分量间的相关性。
( y1 y1 ) '( y2 y2 ) r ( y1 , y2 ) 1/ 2 [( y1 y1 ) '( y1 y1 )( y2 y2 ) '( y2 y2 )] ( x1 x1 ) '( x2 x2 ) 1/ 2 r ( x1 , x2 ) [( x1 x1 ) '( x1 x1 )( x2 x2 ) '( x2 x2 )]
从而马氏距离
dM
2
1 0.2 2 1 1 d M ( B, M ) 1 1 3.8 ( A, M ) 1 1 0.19 0.19 1 1
1
它们之比达
19 倍。若用欧氏距离,则算得的距离值相同:
2 d E ( B, M ) 2
i 1
⑵ 绝对值距离(街坊距离或Manhattan距离) n d ( x , y ) | xi yi |
i 1
(3) 切氏(Chebyshev)距离 d ( x , y ) max | xi yi |
i
10
(一)距离测度(差值测度) (4) 明氏(Minkowski)距离 n d ( x , y ) [ ( xi yi ) m ]1/ m
2 y
1
B1 A1}
14
马氏距离的一般定义 设 x 、 y 是从期望矢量为 、协方差矩阵为的母体G
中抽取的两个样本,则它们间的马氏距离定义为
2
1 d ( x, y) ( x y) ' ( x y) 当 x 和 y 是分别来自两个数据集中的样本时,设C
13
1 故 d ( y , y ) ( y y ) 'V ( y y ) i j i j y i j 1 ( Axi Ax j ) 'Vy ( Axi Ax j ) 1 ( xi x j ) ' A 'Vy A( xi x j ) 1 ( xi x j ) ' A '( AVx A ') A( xi x j ) { ( AB) 1 1 1 ( xi x j ) ' A ' A ' Vx A A( xi x j ) 1 ( xi x j ) 'Vx ( xi x j ) 2 d x ( xi , x j )
x 和 y 的距离为 d ( x , y ) 设特征矢量 则 d ( x , y ) 一般应满足如下公理
(1) d ( x, y) 0, 当且仅当x y 时等号成立,即d ( x, y)=0 x y