当前位置:文档之家› 聚类算法的研究

聚类算法的研究

第3l卷第6期 V0l_31 No.6 长春师范学院学报(自然科学版) 

Journal of Changchun Normal University(Natural Science) 2012年6月 

Jun.2012 

聚类算法的研究 刘 洋 (大庆师范学院数学科学学院,黑龙江大庆163712) 

【摘要】聚类算法是多元统计的一个重要分支,在理论和实际生活中都有重要的意义。本文对聚类算 法的发展历程以及近年来发展的一些聚类算法进行研究。 【关键词】聚类算法;算法优缺点;混合模型聚类算法 【中图分类号】O212 【文献标识码】A 【文章编号]1008—178X(2012)06—0009—03 

聚类分析研究已有很长的历史,它不仅是多元统计中的一个重要分支,而且也是数据挖掘、模式识别 等研究方向的重要内容之一.通过聚类,可以给出数据稀疏和密集的区域,发现数据整体的分布模式,以及 数据彼此之间的相互关系等.聚类分析对较大数据集的分析处理也有重要应用. 不仅如此,聚类分析在其他领域也有重要的地位.例如,商业上聚类分析用于研究消费者行为;环境上 聚类分析是检验环境污染程度,对污染成分归类的有效工具;天文学中聚类分析用来对天体归类;生物学 中聚类分析被用来对动植物和基因进行分类,获取对种群固有结构的认识及发现新的基因;计算机中聚类 分析用来进行图像的分析处理等. 1 聚类及聚类的简单分类 迄今为止,聚类还没有一个被公认的定义.在此介绍应用多元统计分析lll中对聚类的描述:聚类分析又 称群分析,它是研究对样品或指示进行分类的一种多元统计方法.所谓的“类”,通俗地说,就是相似元素 的集合.分类有两种情形,一是对当前所研究的问题已知它的类别数目及类特征,只需将一些未知类的个 体,正确地归属于其中某一类;二是事先不知道研究的问题应分为几类,更不知道观测数据的具体分类情 况,需要对观测数据进行分析处理,选定一种度量数据接近程度的统计量,确定分类数目,建立一种分类 方法,并按接近程度对观、钡0对象给出合理的分类.聚类原则是使分到同一类间样本性质特征尽可能相似,不 同类间样本性质特征尽可能分开. 根据不同的分类标准,聚类算法有多种分类方式.根据对观测数据先验知识的有无,聚类被划分为无监 督聚类和有监督聚类.有监督聚类为上述的第一种情形,无监督聚类为上述的第二种情形.根据对观测数据内 在的概率框架的有无,聚类又可以分为基于模型和基于判断的聚类.根据实际问题的背景,观测数据类型, 又提出基于网格的聚类、基于最小生成树聚类、模糊聚类算、自组织映射聚类、蚁群聚类等. 2聚类算法 2.1分层聚类算法 分层聚类算法是对于给定的观测样本或指标进行层次上的分解的一种聚类算法,可以分为凝聚算法和 

【收稿日期】2012—04—05 【作者简介】刘 洋(1985一),女,黑龙江大庆人,大庆师范学院数学科学学院助教,硕士,从事多元统计分析研究。 

・9・ 分裂算法.分类的方法:一开始将所有的对象置于一个类中,计算每两个类间距离,把距离最小的两个类合 并为一个新类,如此下去,直到每个类只包含一个对象,或者达到一个终止条件为止. 分层聚类算法优点是可以得到各个数目的类;缺点是分到各个类问的观测样本不能自动调整,聚类计 算量太大,且在聚类时易忽略新类临时产生的信息,不能自动给出最优聚类数E1.此聚类算法适用于小型数 据. 2.2 K—means聚类算法 1967年,MacQueen首次提出了K—means聚类算法,大体思想是在最初的观测样本或指标中找出K个 观测样本作为始聚类中心,然后计算每一观测样本与每一个聚类中心的距离,把有最短距离的样本划分为 

一类,重新计算(求平均值)每个有变化的聚类中心,则得到新的聚类中心,如此下去,直到每一类都不 再发生变化为止. K—means聚类算法的优点是思想直观,聚类速度较快;缺点是它太依赖于初始聚类中心的选取,不能 自动给出聚类数目,仅适用于数值型数据.为此,很多学者针对K—means算法的缺点给出改进算法:比如 Huang为克服仅适用于数值型数据聚类的局限性提出K—modes—Huang算法[21,针对初始聚类中心的选择,谢 娟英等给出一种改进的全局K一均值聚类算法[31等. 2.3基于密度的聚类 此聚类算法的主要思想是以观测样本的密度为依据,把拥有较大密度的观测样本聚成一类.观测样本的 整个样本空间被低密度的观测样本划分为若干区间.算法的优点是预先不需要知道聚类的数目;缺点是只能 处理数值型观测数据,但是基于网格的聚类算法解决了这一弊端. 2.4基于模型聚类算法 基于模型聚类算法是以概率数理理论为基础的聚类算法.可以解决无监督聚类对观测噪音不能恰当处 理、对观测样本不能自动给出最优的聚类数目的弊端.基于模型的聚类算法与EM算法结合,对聚类数目的 确定,转化为模型选择问题;对观测噪音的处理,通过添加一个或多个观测数据的不同成分来处理. 2.4.1 聚类的混合模型 观测数据集记为X={x1,x2,x3,…,xn},设 (XI 是数据向量X所在第血个类的概率密度函数, 为参 G 数.设x可分为G个类,令仃 为X来自第k个类的权重(∑丌 1),则数据集x模型的一般框架为,( = 

=l 

G ∑订 I∞,假设x。,X2,X3,…,xn彼此独立,9=(8 一,oa,观测数据x的联合模型为f(x。,X2, ,…, ; = 

k=-l 

n G 兀∑7r (XI . 

:lt=1 

2.4.2混合模型聚类的理论 

对观测数据集 {xl,x2, ,…,xn}建立一个有限维的混合模型,对给定数据集X,Log一似然函数直接极 大化很困难.为此,引入x最有可能的分类标签向量集B=fB ,B2,B3,…, ,X的分类标签记为Bi=(bi , ,…, r,若数据X来自第七(k=l,2,…,G)个类,则 =1;否则 =0.通常情况下假定B ,B2,伤,…,Bn独立同分 

布,以概率丌。,仃 , ,…,丌G,(∑ =1)来自一个多维分布.则有 G P[ =1 I ]=仃 ,P lB, =Ⅱ (XI∞ . ’ 

r_I 利用分类标签向量集B,观测数据集的log一似然函数可以表示成 

n G logL8(8)=∑乏J(b ̄=1)log(7r★f I , 

・10・ 其中J( =1)为示性函数.把分类标签向量集B看成缺失向量集,利用EM算法估计式子中的参数0,使得似 然函数最大化.令参数0的极大似然估计为0,X来自第k个类的后验概率为 ,表达式为 P[ :1 Ix, ]= )_. ∑音ff (Xl 0 ) 

J=l 

根据后验概率 对样本进行聚类,将观测数据分类到有最大后验概率的类牙0用模型选择准则AIC, 

BIC等给出观测数据集的聚类数目x的最优选择. 基于模型的聚类算法,特别是基于混合模型的聚类算法应用广泛,但是对于非正态数据以及高维混合 数据集,此算法仍需进一步完善.WangL,RamoniMF,SebastianiP 2006 E ̄提出了多项式混合模型聚类方法, 提供了一个自动选择有最大后验概率的聚类数目的方法,特别适用于有孤立点数据的聚类.Xiao feng Dai等 (2009)[61建立了独立的Gaussian与Beta分布数据的有限维混合联合模型,讨论了两种不同类型数据的混合模 型. 3结论 随着科学的不断进步.数据呈现维数大、分布复杂等特点,对聚类算法的要求也越来越严格.在今后的发 展中,如何聚类不同类型的数据集,特别是观测数据的分量问结构不统一,彼此不独立的数据集.为此,应 该融合不同聚类算法的思想,利用不同算法的优缺点构建新的、解释性更合理的聚类算法. 

[参考文献】 【1]高惠璇.应用多元统计分析【M].北京:IL京大学出版社,2005. 【2]Huang Z.Extensions to the K—means algorithm for clustering large data sets with categorical values[J].Data Mining and Knowledge Discovery II,1998(2):283—304. [3】谢娟英,蒋帅,王春霞,等.一种改进的全局K一均值聚类算法[J].陕西师范大学学报:自然科学版,2010(2):18,22. 

【4]Kohomen T.The self-organizing map ̄].Proc IEEE,1990,78(9):1464-1480. 【5]Wang L,Ramoni M F,Sebastiani P.Clustering short gene expression profiles.Lecture Notesin computer Science:Reseach in computational Molecutar Biology:loth Annual Internationa1.conference[J].RECOMB,2006(3909):60-68. 【6】Xiao Feng D,Timo E,Olli Y H,et a1.A joint finite mixture model for clustering genes from independent Gaussian and beta distributed dataO].BMC Bioinformatics,2009(10):165. 

Research on the Clustering Algorithm LIU Yang (Science ofMathematics Department ofDaqing Normal University,Daqing 163712,China) 

Abstract:Clustering algorithm which is an impo ̄ant branch of muhivariate statistics plays a significant role in the theory and realistic life.The paper studies the Racks of clustering algorithm’S development and some kind of clustering algorithms developed in recent years. Key words:clustering algorithm;the advantages and disadvantages of algorithm;clustering algorithm in mixed model

相关主题