当前位置:
文档之家› 遥感影像识别-第三章 聚类分析 Part Ⅱ要点
遥感影像识别-第三章 聚类分析 Part Ⅱ要点
2 | x y | i i i 1
d
课堂回顾
在样本相似性度量的基础上,聚类分析还需要 一定的准则函数,才能把真正属于同一类的样 本聚合成一个类型的子集,而把不同类的样本 分离开来。 聚类准则函数:包括误差平方和准则、加权平 均平方距离和准则、类间距离和准则。 误差平方和准则(最常用):
(1)C-均值算法(一)
(1)C-均值算法(一)
算法特点: ① 每次迭代中都要考查每个样本的分类是否正 确,若不正确,就要调整,在全部样本调整完之 后,再修改聚合中心,进入下一次迭代。如果在 某一个迭代运算中,所有的样本都被正确分类, 则样本不会调整,聚合中心也不会有变化,也就 是收敛了。 ② c个初始聚合中心的选择对聚类结果有较大影 响。 在算法迭代过程中,样本分类不断调整,因此 误差平方和 J c 也在逐步减小,直到没有样本调 整为止,此时 J c 不再变化,聚类达到最优。但 是上述算法中没有计算 J c 值,也就是说 J 不是 算法结束的明显依据。
2. 最大最小距离聚类算法
该算法以欧氏距离为基础,除首先辨识最远的聚 类中心外,与上述算法相似。用一个例子说明该 算法。 ♂以类间欧式距离最大作为选择聚类中心的条件 。
§ 3-4 动态聚类算法
在聚类分析中,动态聚类法是较普遍采用的方法 ,该算法首先选择某种样本相似性度量和适当的 聚类准则函数,使用迭代算法,在初始划分的基 础上,逐步优化聚类结果,使准则函数达到极值 。
采用最近邻规则的聚类算法 最大最小距离聚类算法
1. 采用最近邻规则的聚类算法
假设已有混合样本集 行聚类,算法如下:
,按照最近邻原则进
X {x1, x2 ,....,xn}
①选取距离阈值 ,并且任取一个样本作为第一 个聚合中心 ,如: 。 T ②计算样本 到 的距离 :
Z1
Z1 x1
ISODATA 算 法 : Iterative Self-Organizing Data Analysis Techniques Algorithm ,迭代自组织的数 据分析算法。 ISODATA算法特点:可以通过类的自动合并(两 类合一)与分裂(一类分为二),得到较合理的 类型数目c。
具体算法步骤: ⑴ 给定控制参数 K :预期的聚类中心数目。 n:每一聚类中最少的样本数目,如果少于此数 就不能作为一个独立的聚类。 s:一个聚类域中样本距离分布的标准差(阈值 )。 c:两个聚类中心之间的最小距离,如果小于此 数,两个聚类合并。 L:每次迭代允许合并的最大聚类对数目。 I :允许的最多迭代次数。 给定n个混合样本,令 J 1 (迭代次数),预选c个 ,...,c 起始聚合中心, Z j (, J ) j 1,2。
1.C-均值聚类算法(即:K-均值聚类算法) 2.ISODATA聚类算法
算法要解决的关键问题: ① 首先选择有代表性的点作为起始聚合中心。若 类型数目已知,则选择代表点的数目等于类型数 目;若未知,那么聚类过程要形成的类型数目, 就是一个值得研究的问题。 ② 代表点选择好之后,如何把所有样本区分到 以代表点为初始聚合中心的范围内,形成初始划 分,是算法的另一个关键问题。
,
具体算法步骤: D( xk , Z j ( J )) ⑵ 计算每个样本与聚合中心距离: 。 n} xk 。 wi 若:D( x , Z ( J )) min {D( x , Z ( J )), k 1,2,..., ,则: 把全部样本划分到c个聚合中去,且 n j 表示各子 集 X j 中的样本数目。 ⑶ 判断:若 ,则舍去子集 ,返 回②。 ⑷ 计算修改聚合中心: 。 ⑸ 计算类内距离平均值 D :
1.C-均值聚类算法
C- 均值聚类算法使用的聚类准则函数是误差平方 和准则 : Jc
J c || xk m j ||
j 1 k 1
c
nj
2
为了使聚类结果优化,应该使准则 最小化。
Jc
(1)C-均值算法(一)
(1)C-均值算法(一)
(1)C-均值算法(一)
(1)C-均值算法(一)
聚类分析符合“物以类聚,人以群分“的原 则,它把相似性大的样本聚集为一个类型, 在特征空间里占据着一个局部区域。每个局 部区域都形成一个聚合中心,聚合中心代表 相应类型。 相似性准则:包括距离相似性度量和角度相似 性度量。 距离相似性度量:欧氏距离、马氏距离、明 氏距离。
De ( x, y) || x y ||
J c || xk m j2
课后思考
线性判别函数的适用性? 聚类分析的优缺点?
ERDAS image Model 工具如何实现聚类?
§ 3-3 两种简单的聚类算法
本节介绍两种简单的聚类分析方法,它是对某些 关键性的元素进行试探性的选取,使某种聚类准 则达到最优,又称为基于试探的聚类算法。
遥感影像识别
第三章: 聚类分析
Part Ⅱ
主要内容
§ 3-1 § 3-2 § 3-3 § 3-4 § 3-5 相似性准则 聚类准则函数 两种简单的聚类算法 动态聚类算法 聚类的评价
课堂回顾
广义线性判别函数 x y 非线性判别函数 分段线性判别函数:距离均值 二次判别函数:判别方程
课堂回顾
x2
Z1
D21
③按照某种聚类准则考察聚类结果,若不满意,则 重新选取距离阈值 、第一个聚合中心 ,返回 T ②,直到满意,算法结束。 Z1 在样本分布一定时,该算法的结果在很大程度上取 决于第一个聚合中心的选取和距离阈值的大小。♀ p66 该算法的优点是简单,如果有样本分布的先验知识 用于指导阈值和起始点的选取,则可较快得到合理 结果。对于高维的样本集来说,则只有经过多次试 探,并对聚类结果进行验算,从而选择最优的聚类 结果。
c
(2)C-均值算法(二)
(2)C-均值算法(二)
(2)C-均值算法(二)
( 3) J 与 c C的关系曲线
(3) J c与C的关系曲线
图中,曲线的拐点A对应着接近最优的c值。 并非所有的情况都容易找到 J c -C关系曲线的拐 点,此时c值将无法确定。
2.ISODATA聚类算法