当前位置:
文档之家› 模式识别10第十章 聚类 2014 tt
模式识别10第十章 聚类 2014 tt
本页课件内容源自清华张学工教授《模式识别》
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
混合密度及可辨识性
• 从理论上讲,非监督学习可以看作是 一个混合密度的估计问题:
p x 1, s1,t1 U s1,t1
p x 2, s2,t2 U s2,t2
• 如果训练样本是0-1之间的均匀分布:
px U 0,1
• 则对任意的0<t<1,只要:
P 1 t, p x 1, s1,t1
U
0, t
1 t ,
0,
0 xt otherwise
P 2 1 t, p x 2, s2,t2
散布准则
• 基于行列式的散布准则:
Jd Sw
• 基于不变量的散布准则:
J f tr ST1SW
准则函数的优化
• 穷举法优化:聚类准则函数的优化是组合 最优问题,是一个NP难题,将n个样本分到 c个类别有cn/c!种分法,穷举计算是不现实 的,只能寻找次优方法解决;
• 迭代最优化:随机设置初始聚类,计算将 样本x从Di聚类移到Dj聚类是否能够使准则 函数减小,减小则做此修改,否则不修改。
样本; • 但知道它们是从若干个服从不同分布的
聚类中独立抽取出来的; • 要根据这些样本同时估计出各个聚类的
概率密度函数。
10.3 混合模型的估计
• 3. 非监督参数估计问题中 • 非监督最大似然估计法的基本思想与
3.2节(P45)中的最大似然估计方法相 同。
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
• 把相似的(或距离近的)样本聚为同一类, 而把不相似(或距离远的)样本归在其他 类。
• 基于相似度度量的聚类方法是实际中更常 用的方法。
本页课件内容源自清华张学工教授《模式识别》
本页课件内容源自清华张学工教授《模式识别》
聚类准则函数
类别数 c = 2
误差平方和准则
• 将样本分成c个子集D1, …, Dc,ni为第 i个子集的样本数,mi为样本均值:
聚类算法(clustering algorithm)已经采用近邻测度和聚类准则,这 一步涉及到选择特定的算法,用于揭示数据集的聚类结构。
结果验证(validation of the result)一旦聚类算法得到结果,就必须 验证其正确性。
结果判定(interpretation of the result)在许多情况下,应用领域的 专家必须用其他实验证据和分析判定聚类结果,最后得出正确的结论。
• 模型就是样本在其所在空间里的概率密 度函数。
10.2 基于模型的方法
• 单峰子集分离(或称单峰子类分离)的 方法。
• 基本思想:假设每个聚类的样本在特征空间 里是集中在一起的,在分布密度上形成一个 局部的峰值,聚类分析就是寻找样本分布密 度的单峰,把每个单峰作为一个聚类的中心。
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
• 在这种意义下,对样本的任何划分都可以 看作是一种聚类。
非监督模式识别的 基本思想和代表性方法-聚类
• 1. 需要对聚类有一定的数学上的要求或假 定,这就是聚类的准则;
• 2. 不同的聚类准则反映了对数据的不同认 识,也反映了对要寻找的规律的不同认识, 相应的可以设计出不同的算法。
使用的特定的准则的不同,产生的聚类结果是不同的
10.4.1 k-均值(C均值)聚类
本页课件内容源自清华张学工教授《模式识别》
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
为了完成一个聚类,必须遵循以下步骤:
特征选择(feature selection)必须适合的选择特征,尽可能多的包含 任务关心的信息。在特征中,使信息冗余减少和最小化是主要目标。
近邻测度(proximity measure)用于定量的测量两个特征向量如何相 似或不相似。
聚类准则(clustering criterion)这依赖于专家对“可判断”的解释, 聚类准则一蕴涵在数据集中类的类型为基础。
1
mi ni xDi x
• 误差平方和准则:
c
Je
x mi 2
i1 xDi
散布矩阵
• 类内散布矩阵:
c
Sw x mi x mi t i1 xDi
• 类间散布矩阵:
c
SB ni mi m mi mt i 1
• 总体散布矩阵:
ST x mx mt Sw SB xD
本页课件内容源自清华张学工教授《模式识别》
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
Chapter 10 非监督模式识别与聚类
1
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
计算机分类 识别
计算机分析
10.1 引言
10.1 引言
• 根据一些给定的已知类别标号的样本,训 练某些学习机器,使其能够对未知类别的 样本进行分类
• ------所用的方法叫聚类分 析方法,所得的类叫聚类 (cluster)。
本页课件部分内容源自清华张学工教授《模式识别》
10.1 引言
10.1 监督学习与非监督学习
• 监督学习与非监督学习的最大区别在于 训练样本是否有类别标号,无类别标号 的称为非监督学习;
• 监督学习与无监督学习也被称为有教师 学习与无教师学习。
• 2. 不同的聚类准则反映了对数据的不同认识, 也反映了对要寻找的规律的不同认识,相应的 可以设计出不同的算法。
• 3. 非监督模式识别方法分为两大类:基于样本 的概率分布模型进行聚类划分、直接根据样本 间的距离或相似性度量进行聚类。
10.2 基于模型的方法
• 已经知道或者是可以估计样本在特征空 间的概率分布,可以用基于模型的方法 进行聚类分析。
聚类定义
设X是数据集,即
X={x1,x2,…, } xN
定义X的m聚类R,讲X分割成m个集合(聚类)
C,1 …, C,m 使其满足下面三个条件:
1. Ci ,i 1,..., m
2.
C m
i1 i
X
3. Ci C j ,i j,i, j 1,...m
聚类定义
模糊集中的另一种定义
X的模糊聚类是将X分成m个类,由m个函数u j
本页课件内容源自清华张学工教授《模式识别》
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
10.4 动态聚类算法
• 不估计样本的概率分布,根据样本间的某 种距离或相似性度量来定义聚类;
非监督模式识别的广泛应用
• 1). 遥感图像的分割 • 2). 流行病学研究 • 3). 人群的心理学或行为规律(如驾驶员
行为模式的因子分析和模糊聚类)
• ……
非监督模式识别的 基本思想和代表性方法-聚类
• 非监督模式识别问题中,我们没有或事先 不知道类别的定义,甚至不知道可能有几 类或是否存在分类,因此,实际上事先没 有一个可以参照的分类目标;
2. do 按照最近邻mi分类n个样本;
具体的样本x。
• 因此x样本的产生概率为:
c
px θ px j,θ j Pj j 1
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
可辨识性
• 不可辨识:如果无论样本的数目有多 少,都不存在唯一的解 θ ,则称密度
px θ 是不可辨识的;
• 完全不可辨识:如果参数 θ 的任何部 分都无法求出,则称为完全不可辨识;
• 大多数的混合密度是可以辨识的,但 也存在某些混合密度是无法辨识的。
完全不可辨识
• 假设样本x的概率是由两个0-1分布混 合而成,两个分布的先验概率相等,
U
t,1
1
1
0,
t
,
t x 1 otherwise
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络