当前位置：文档之家› 模式识别10第十章聚类 2014 tt

模式识别10第十章聚类 2014 tt

本页课件内容源自清华张学工教授《模式识别》
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
混合密度及可辨识性
• 从理论上讲，非监督学习可以看作是一个混合密度的估计问题：
p x 1, s1,t1 U s1,t1
p x 2, s2,t2 U s2,t2
• 如果训练样本是0-1之间的均匀分布：
px U 0,1
• 则对任意的0<t<1，只要：
P 1 t, p x 1, s1,t1
U
0, t
1 t ,
0,
0 xt otherwise
P 2 1 t, p x 2, s2,t2
散布准则
• 基于行列式的散布准则：
Jd Sw
• 基于不变量的散布准则：
J f tr ST1SW
准则函数的优化
• 穷举法优化：聚类准则函数的优化是组合最优问题，是一个NP难题，将n个样本分到 c个类别有cn/c!种分法，穷举计算是不现实的，只能寻找次优方法解决；
• 迭代最优化：随机设置初始聚类，计算将样本x从Di聚类移到Dj聚类是否能够使准则函数减小，减小则做此修改，否则不修改。
样本； • 但知道它们是从若干个服从不同分布的
聚类中独立抽取出来的； • 要根据这些样本同时估计出各个聚类的
概率密度函数。
10.3 混合模型的估计
• 3. 非监督参数估计问题中 • 非监督最大似然估计法的基本思想与
3.2节（P45）中的最大似然估计方法相同。
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
• 把相似的（或距离近的）样本聚为同一类，而把不相似（或距离远的）样本归在其他类。
• 基于相似度度量的聚类方法是实际中更常用的方法。
本页课件内容源自清华张学工教授《模式识别》
本页课件内容源自清华张学工教授《模式识别》
聚类准则函数
类别数 c = 2
误差平方和准则
• 将样本分成c个子集D1, …, Dc，ni为第 i个子集的样本数，mi为样本均值：
聚类算法（clustering algorithm）已经采用近邻测度和聚类准则，这一步涉及到选择特定的算法，用于揭示数据集的聚类结构。
结果验证（validation of the result）一旦聚类算法得到结果，就必须验证其正确性。
结果判定（interpretation of the result）在许多情况下，应用领域的专家必须用其他实验证据和分析判定聚类结果，最后得出正确的结论。
• 模型就是样本在其所在空间里的概率密度函数。
10.2 基于模型的方法
• 单峰子集分离（或称单峰子类分离）的方法。
• 基本思想：假设每个聚类的样本在特征空间里是集中在一起的，在分布密度上形成一个局部的峰值，聚类分析就是寻找样本分布密度的单峰，把每个单峰作为一个聚类的中心。
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
• 在这种意义下，对样本的任何划分都可以看作是一种聚类。
非监督模式识别的基本思想和代表性方法－聚类
• 1. 需要对聚类有一定的数学上的要求或假定，这就是聚类的准则；
• 2. 不同的聚类准则反映了对数据的不同认识，也反映了对要寻找的规律的不同认识，相应的可以设计出不同的算法。
使用的特定的准则的不同，产生的聚类结果是不同的
10.4.1 k-均值（C均值）聚类
本页课件内容源自清华张学工教授《模式识别》
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
为了完成一个聚类，必须遵循以下步骤：
特征选择（feature selection）必须适合的选择特征，尽可能多的包含任务关心的信息。在特征中，使信息冗余减少和最小化是主要目标。
近邻测度（proximity measure）用于定量的测量两个特征向量如何相似或不相似。
聚类准则（clustering criterion）这依赖于专家对“可判断”的解释，聚类准则一蕴涵在数据集中类的类型为基础。
1
mi ni xDi x
• 误差平方和准则：
c
Je
x mi 2
i1 xDi
散布矩阵
• 类内散布矩阵：
c
Sw x mi x mi t i1 xDi
• 类间散布矩阵：
c
SB ni mi m mi mt i 1
• 总体散布矩阵：
ST x mx mt Sw SB xD
本页课件内容源自清华张学工教授《模式识别》
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
Chapter 10 非监督模式识别与聚类
1
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
计算机分类识别
计算机分析
10.1 引言
10.1 引言
• 根据一些给定的已知类别标号的样本，训练某些学习机器，使其能够对未知类别的样本进行分类
• ------所用的方法叫聚类分析方法，所得的类叫聚类（cluster）。
本页课件部分内容源自清华张学工教授《模式识别》
10.1 引言
10.1 监督学习与非监督学习
• 监督学习与非监督学习的最大区别在于训练样本是否有类别标号，无类别标号的称为非监督学习；
• 监督学习与无监督学习也被称为有教师学习与无教师学习。
• 2. 不同的聚类准则反映了对数据的不同认识，也反映了对要寻找的规律的不同认识，相应的可以设计出不同的算法。
• 3. 非监督模式识别方法分为两大类：基于样本的概率分布模型进行聚类划分、直接根据样本间的距离或相似性度量进行聚类。
10.2 基于模型的方法
• 已经知道或者是可以估计样本在特征空间的概率分布，可以用基于模型的方法进行聚类分析。
聚类定义
设X是数据集，即
X={x1,x2,…, } xN
定义X的m聚类R，讲X分割成m个集合（聚类）
C，1 …， C，m 使其满足下面三个条件：
1. Ci ,i 1,..., m
2.
C m
i1 i
X
3. Ci C j ,i j,i, j 1,...m
聚类定义
模糊集中的另一种定义
X的模糊聚类是将X分成m个类，由m个函数u j
本页课件内容源自清华张学工教授《模式识别》
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
10.4 动态聚类算法
• 不估计样本的概率分布，根据样本间的某种距离或相似性度量来定义聚类；
非监督模式识别的广泛应用
• 1). 遥感图像的分割 • 2). 流行病学研究 • 3). 人群的心理学或行为规律（如驾驶员
行为模式的因子分析和模糊聚类）
• ……
非监督模式识别的基本思想和代表性方法－聚类
• 非监督模式识别问题中，我们没有或事先不知道类别的定义，甚至不知道可能有几类或是否存在分类，因此，实际上事先没有一个可以参照的分类目标；
2. do 按照最近邻mi分类n个样本；
具体的样本x。
• 因此x样本的产生概率为：
c
px θ px j,θ j Pj j 1
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
可辨识性
• 不可辨识：如果无论样本的数目有多少，都不存在唯一的解 θ ，则称密度
px θ 是不可辨识的；
• 完全不可辨识：如果参数 θ 的任何部分都无法求出，则称为完全不可辨识；
• 大多数的混合密度是可以辨识的，但也存在某些混合密度是无法辨识的。
完全不可辨识
• 假设样本x的概率是由两个0-1分布混合而成，两个分布的先验概率相等，
U
t,1
1
1
0,
t
,
t x 1 otherwise
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络

e商务文档

模式识别10第十章聚类 2014 tt

相关文档推荐：

e商务文档

模式识别10第十章 聚类 2014 tt

相关文档推荐：

模式识别10第十章聚类 2014 tt