当前位置:文档之家› 聚类算法 KNN 、K-mean ,K-center FCM

聚类算法 KNN 、K-mean ,K-center FCM


聚类算法分类
划分方法(partitioning method)k-means 层次方法(hierarchical methods) 基于密度的方法(density-based methods) 基于网格的方法(grid-based methods) 基于模型的方法(model-based methods)
Eg:样本点A –>E1=10 样本点B –>E2=11 样本点C –>E3=12 原质点O–>E4=13, 那我们选举A作为类簇的新质点。与K-means算法一样, K-medoids也是采用欧几里得距离来衡量某个样本点 到底是属于哪个类簇。终止条件是,当所有的类簇的 质点都不在发生变化时,即认为聚类结束。
K-MEANS
算法流程:
首先从聚类对象中随机选出K个对象作为类簇 的质心(当然了,初始参数的K代表聚类结果 的类簇数),对剩余的每个对象,根据它们分 别到这个K个质心的距离,将它们指定到最相 似的簇(因为K-means是利用距离来量化相似 度的,所以我们这里可以理解为是“将它们指 定到离最近最近距离的质心所属类簇”)。然 后重新计算质心位置。以上过程不断反复,直 到准则函数收敛为止。
K-MEANS
算法流程:
通常采用平方误差准则,定义如下:
其中,E代表的意思是所有类簇中各对象到其所属类簇 质点平方误差和. K:聚类结果类簇个数 Ci:第i个类簇 P:类簇中聚类对象mi:第i个类簇的质心
K-MEANS
K-MEANS
优点与不足:
优点: 能处理大型数据集,结果簇相当紧凑,并且簇和 簇之间明显分离。 不足: 1)该算法必须事先给定类簇数和质点,簇数和 质点的初始值设定往往会对聚类的算法影响较 大。 2 ) 通常会在获得一个局部最优值时停止。
FCM
首先说明隶属度函数的概念。隶属度函数是表示一个 对象x隶属于集合A的程度的函数,通常记做μA(x), 其自变量范围是所有可能属于集合A的对象(即集合 A所在空间中的所有点),取值范围是[0,1],即 0<=1,μA(x)<=1。μA(x)=1表示x完全隶属于集合A, 相当于传统集合概念上的x∈A。一个定义在空间 X={x}上的隶属度函数就定义了一个模糊集合A,或 者叫定义在论域X={x}上的模糊子集。对于有限个对 象x1,x2,……,xn模糊集合可以表示为:
聚类算法的评价标准
4) 对聚类算法初始化参数的知识需求的最小化:很多 算法在分析过程中需要用户提供一定的初始参数,比如 期望的类簇个数,类簇初始质点的设定。聚类结果对这 些参数是十分敏感的。这不仅加重了用户的负担,也非 常影响聚类结果的准确性 5) 处理噪声数据的能力:所谓的噪声数据,可以理解 为影响聚类结果的干扰数据,这些噪声数据的存在会造 成聚类结果的畸变,最终导致低质量的聚类。 6) 增量聚类和对输入次序的不敏感:一些聚类算法不 能将新加入的数据插入到已有的聚类结果;输入次序的 敏感是指,对于给定的数据对象集合,以不同的次序提 供输入对象时,最终产生的聚类结果的差异会比较大。
聚类算法的评价标准
7) 高维性:有些算法只适合处理2维或者3维的 数据,而对高维数据的处理能力很弱,因为在高 维空间中数据分布可能十分稀疏,而且高度倾斜。 8) 基于约束的聚类:现实应用中可能需要在各 种条件下进行聚类。因为同一个聚类算法,在不 同的应用场景中所带来的聚类结果也是各异的, 因此找到满足特定约束的具有良好聚类特性的数 据分组是十分有挑战性的。 9) 可解释性和可用性:我们希望得到的聚类结 果都能用特定的语义、知识进行解释,和实际的 应用场景相联系。
K-CENTERS
前面介绍了k-means算法,并列举了该算法的 缺点。而K中心点算法(K-centers)正好能解 决k-means算法中的 “噪声”敏感这个问题。 首先,我们得介绍下k-means算法为什么会对 “噪声”敏感。还记得K-means寻找质点的过 程吗?对某类簇中所有的样本点维度求平均值, 即获得该类簇质点的维度。当聚类的样本点中 有“噪声”(离群点)时,在计算类簇质点的 过程中会受到噪声异常维度的干扰,造成所得 质点和实际质点位置偏差过大,从而使类簇发 生“畸变”。
n i 1
J (U , c1 ,..., cc , 1 ,..., n ) J (U , c1 ,..., cc ) j 1 j ( uij 1) u d j ( uij 1)
i 1 m 2 ij ij j j 1 i 1 c n n c
K-CENTERS
为了解决该问题,K中心点算法(Kcenters)方式,而不是简单像k-means 算法采用均值计算法。在K中心点算法中, 每次迭代后的质点都是从聚类的样本点 中选取,而选取的标准就是选用簇中离 平均值最近的对象作为簇中心。该算法 使用绝对误差标准来定义一个类簇的紧 凑程度。
K-CENTERS
FCM
上述算法也可以先初始化聚类中心,然后再执行迭代 过程。由于不能确保FCM收敛于一个最优解。算法的 性能依赖于初始聚类中心。因此,我们要么用另外的 快速算法确定初始聚类中心,要么每次用不同的初始 聚类中心启动该算法,多次运行FCM。
FCM算法的应用
通过上面的讨论,我们不难看出FCM算法需要两个参数一个是 聚类数目C,另一个是参数m。一般来讲C要远远小于聚类样 本的总个数,同时要保证C>1。对于m,它是一个控制算法的 柔性的参数,如果m过大,则聚类效果会很次,而如果m过小 则算法会接近HCM聚类算法。 算法的输出是C个聚类中心点向量和C*N的一个模糊划分矩阵, 这个矩阵表示的是每个样本点属于每个类的隶属度。根据这 个划分矩阵按照模糊集合中的最大隶属原则就能够确定每个 样本点归为哪个类。聚类中心表示的是每个类的平均特征, 可以认为是这个类的代表点。 从算法的推导过程中我们不难看出,算法对于满足正态分布的 数据聚类效果会很好,另外,算法对孤立点是敏感的。
聚类算法的评价标准
1)可伸缩性:当聚类对象由几百上升到几百万,我们希 望最后的聚类结果的准确度能一致。 2)处理不同类型属性的能力:有些聚类算法,其处理对 象的属性的数据类型只能为数值类型,但是实际应用场 景中,我们往往会遇到其他类型的数据,比如二元数据, 分类数据等等。当然,在处理过程我们是可以将这些其 他类型的数据预处理成数值型数据的,但是在聚类效率 上或者聚类准确度上往往会有折损。 3)发现任意形状的类簇:因为许多聚类算法是用距离来 量化对象之间的相似度的,基于这种方式,我们往往只 能发现相似尺寸和密度的球状类簇或者成为凸形类簇。 但是,类簇的形状可能是任意的。
如果K=3,由于红色三角形所占比例为2/3,绿 色圆将被赋予红色三角形那个类,如果K=5, 由于蓝色四方形比例为3/5,因此绿色圆被赋 予蓝色四方形类。
FCM
模糊C均值聚类(FCM),即众所周知的模糊 ISODATA,是用隶属度确定每个数据点属于某 个聚类的程度的一种聚类算法。1973年, Bezdek提出了该算法,作为早期硬C均值聚类 (HCM)方法的一种改进。 K均值聚类算法------------------------------HCM
KNN
KNN方法虽然从原理上也依赖于极限定理,但 在类别决策时,只与极少量的相邻样本有关。 由于KNN方法主要靠周围有限的邻近的样本, 而不是靠判别类域的方法来确定所属类别的, 因此对于类域的交叉或重叠较多的待分样本集 来说,KNN方法较其他方法更为适合。
KNN - 图示
图中,绿色圆要被决定赋予哪个类, 是红色三角形还是蓝色四方形?
K-CENTERS
Eg: 类簇C1中已经包含点A(1,1)、B(2,2)、 C(1,2)、 D(2,1), 假设N(100,100)为异 常点,当它纳入类簇C1时,计算质点 Centroid((1+2+1+2+100)/5,(1+2+2+1 +100)/5)=centroid(21,21),此时可能造 成了类簇C1质点的偏移,在下一轮迭代 重新划分样本点的时候,将大量不属于 类簇C1的样本点纳入,因此得到不准确 的聚类结果。
3
FCM
这里j,j=1到n,是(6.9)式的n个约束式的拉格朗 日乘子。对所有输入参量求导,使式(6.10)达到最 小的必要条件为:
ci
u
j 1 n j 1
n
m ij
xj
u
4
uij
1 dij 1 d k kj
c
5 2 /( m 1)
FCM
A {( A ( xi ), xi ) | xi X }
有了模糊集合的概念,一个元素隶属于模糊集合 就不是硬性的了,在聚类的问题中,可以把聚 类生成的簇看成模糊集合,因此,每个样本点 隶属于簇的隶属度就是[0,1]区间里面的值。
FCM
FCM把n个向量xi(i=1,2,…,n)分为c个模糊组, 并求每组的聚类中心,使得非相似性指标的价 值函数达到最小。FCM与HCM的主要区别在于 FCM用模糊划分,使得每个给定数据点用值在 0,1间的隶属度来确定其属于各个组的程度。 与引入模糊划分相适应,隶属矩阵U允许有取 值在0,1间的元素。不过,加上归一化规定, 一个数据集的隶属度的和总等于1:
FCM
FCM算法是一种基于划分的聚类算法,它的思 想就是使得被划分到同一簇的对象之间相似度 最大,而不同簇之间的相似度最小。 模糊C均值算法是普通C均值算法的改进,普 通C均值算法对于数据的划分是硬性的,而 FCM则是一种柔性的模糊划分。在介绍FCM具 体算法之前我们先介绍一些模糊集合的基本知 识。
FCM
i 1 那么,FCM的价值函数形式:
c c
u ij 1, j 1,..., n c1 ,..., cc ) J i u d
i 1 i 1 m ij j
n
2 ij
(2)
FCM
这里uij介于0,1间;ci为模糊组I的聚类中心, dij=||ci-xj||为第I个聚类中心与第j个数据点间的欧几 里德距离;且 m 1, 是一个加权指数。 构造如下新的目标函数,可求得使(6.10)式达到 最小值的必要条件 c
相关主题