当前位置:文档之家› 模式识别-第四章-对无标签样本进行聚类

模式识别-第四章-对无标签样本进行聚类


2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
22
最近距离分层聚类示例(续)(高斯模型产生的样本)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
23
最远距离分层聚类示例(续)(高斯模型产生的样本)
1类
X2
X1
× ×××× ××××× ×××××× ××××
0
X = (x1, x2
)T
X1
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
3
例:汉字的"物以类聚"
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析

其他,例如 x i , y i ∈ {0,1} (第i个特征有无)
S ( X , Y ) = X TY n
公共特征个数的比例
旋转,伸缩不变(原点中心)
Tanimoto距离
S ( X , Y ) = X TY X TX +Y TY X TY
(
)
7
公共特征个数与"X或Y"特征个数比例 信息检索,生物分类,病名判别等
适用于各特征方差相近,类内紧聚,类间离开 可证,整体上满足类内离散最小,类间离散最大
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
13
最小误差平方和准则(续)

根据§2.2曾推导全部样本之间相互欧氏距离平均值
D2 j X l, X m∈ S j
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 2
例:花瓣的"物以类聚"
X2
3类 ○○○○ 2类
△△△ △△△△△△△ △△△△△△△△ △△△△△△ △△△△△ △△△△ ○○○○○○○○ ○○○○○○○○○○ ○○○○○○○○○ ○○○○○○○ ○○○○○ ○○○ ○
Nc
( X l, X m ) = 2 ∑ σ
k =1
n
2 jk
2 = Nj
X ∈S j

X M
2 j
1 Nc J e=∑ ∑ X M j 2 = ∑ N j D 2 j 2 j =1 j =1 X ∈S j
等价于用样本之间的欧氏距离度量相似程度

更一般化,可定义两样本之间的相似度函数 D( X l, X m ) 则 D2 = 1 ∑ D( X l, X m ) j 2 ∑ N j X l∈S j X m∈S j
最小误差平方和准则(最小方差分割)
类内距离尽可能小,类间距离尽可能大
N c: 类的数目 S j : 属于第j类的样本集,j = 1,2,...N c N j : 属于S j 的样本数目
定义 J = e
∑∑
Nc
X M
2 j
j =1 X ∈S j
1 式中 M j= Nj
X ∈S j
∑X
J e 越小,聚类结果越好
X =( x1, x 2 ,..., x n )T 构成的空间 R n中 ■ 对于
同类样本"离得近",不同类样本"离得远"? "离得近"是同类, "离得远"是不同类? 非监督学习:对于没有类别标签的样本集 {Xi}N 根据该问题本身的目的和样本的特性,把全体 N个样本划分为若干个子集(类),同类样本 特性相差小,异类样本特性相差大
j

平均距离 d avg (S i ,S j )
X j∈S j
1 = N iN j
X i∈S i X j∈S j
∑ ∑
X i X
j
1 ■ 均值距离 d S i , S j = M i M j , 其中M i = ∑X mean N i X i∈S i 2 ■ 分层聚类中的相似度计算次数:最初 C N = N ( N 1) 2 2 2 组计算,其后每次减少一个类,依次需要C N 1 , C N 2 ,...... 组计算
n
样本之间的相似性测度(续)

马氏距离(Mahalanobis Distance)
2
∑ : 协方差矩阵 D 正态分布的指数项为 1 2 D 2 , 与正态分布时的概率密度对应 ■ 向量X与向量Y之间夹角(的余弦)
( X M )T ∑ 1 ( X M ) =
M : 均值向量
S ( X , Y ) = X TY X Y

2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
26
阈值分割简单聚类法示意图
R =T

讨论
事先不需要也不知道聚多少类 ◆结果与阈值T,取Xi 顺序有关

◆优点:计算量小,顺次处理完第N个
样本就结束;类数事先不需指定
◆缺点:前提是同类样本紧聚,异类样本远离 ◆实际:需要反复变更阈值T
x2
ω1
x2
ω1
x2
ω1
ω2
ω3
ω2
0 0 0
ω4
x1
ω5
x1
x1
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
11
相似度(距离)阈值对聚类的影响(续)
连线:点间距小于阈值d0 阈值越小,"类"的数目越多
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 12
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
坐标轴比例对聚类的影响(边书P247)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
8
坐标轴比例对聚类的影响(续1)

(
)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
19

min 最近距离 d min (S i ,S j ) = X ∈S X i X
X j∈S j
i i i i
一些"相似度"或"距离"的定义
j

max 最远距离 d max (S i , S j ) = X ∈S X i X
第四章 对无标签样本进行聚类分析 (Unsupervised Learning)
(边书P230~)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
1
§4.1 非监督学习的基本概念
不是任何时候都有教师,无师自通? 分类问题——"人以群分,物以类聚"? 聚类分析,集群分析,Clustering
4
例:汉字的"物以类聚"(续)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
5
样本之间的相似性测度
首先要定义样本之间"相似程度"或"接近程度"D的度 量方法,然后把D值小的样本"聚"在一起形成"类"

1 2 ■ 城市距离(City Block Distance)(直角边之和)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
24
课后练习
有可用高斯分布近似的两个样本集 ω1 = {(2,0 ), (2,2 ), (2,4 ), (3,3)} ω1 = {(0,3), ( 2,2 ), ( 1,1), (1,2), (3,1)} 且P(ω1 ) = P(ω 2 ) = 1 2 求:用最小错误概率分类时的识别界面 令 ω = ω1 ∪ ω 2
16
分类树示例(8个样本)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
17
分层聚类示例(8个样本)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
18
对于有N个样本的集合 X s= {X 1,X 2,..., X N }
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 20
(
)
最近距离分层聚类示例(边书P246)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
21
最远距离分层聚类示例(边书P246)
X j∈S j
i i
max 如距离取最远距离 d max (S i , S j ) = X ∈S X i X
j
试用分层聚类法聚类,并作图
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 25
§4.3 阈值分割简单聚类法
如果类的数目事前不知,但对相似度有个要求 ■ 设有N个样本的集合 X = {X X ..., X } s 1, 2, N 给定一个相似度(距离)阈值T ■ 算法
相关主题