当前位置:
文档之家› 数据挖掘中聚类算法研究进展_周涛
数据挖掘中聚类算法研究进展_周涛
一书中, 即 “物以类聚, 人以群分” , 聚类这个古老的 问题, 它伴随着人类社会的产生和发展而不断深化, 人类要认识世界就必须区分不同的事物并认识事物 间的相似性。数据挖掘的重要任务之一就是发现大 型数据中的积聚现象, 并加以定量化描述。聚类分
基金项目: 国家自然科学基金 (No.81160183) ; 宁夏自然科学基金 (11105) ; 陕西省教育厅项目 (No.2010JK466) ; 宁夏卫生厅 重点科研项目 (No.2011033) ; 宁夏高等学校科学研究重点项目 (宁教高 [2011]263 号) ; 宁夏医科大学特殊人才项目 (No.XT2011004) ; 宁夏医科大学青年基金项目 (No.XQ2011011) 。 作者简介: 周涛 (1977—) , 男, 回族, 博士, 副教授, 硕士生导师, 主要研究方向为医学图像处理、 数据挖掘、 软计算理论等; 陆惠玲 (1976—) , 女, 讲师, 主要研究方向为数据挖掘、 医学图像处理。 收稿日期: 2011-10-18 修回日期: 2011-12-21 DOI: 10.3778/j.issn.1002-8331.2012.12.021
[6] 提出 k- 模 (k-modes) 方法, 它扩展了 k- 平均方法, 用
则矩阵 μ = ( μij) 具有如下性质:
μij Î{0 1} 且 å μij = 1 ( j = 1 2 n)
i=1 c
设 ni 表示第 i 类中所包含的样本个数, 则
ni = å μij (i = 1 2 c) 设 xi Î ÂN 表示第 i 类的中心, 则 xi = μij x j å j=1 μij å j=1
[8] Application based upon Randomized Search) 算法
所以第 i 类的类内差异为:
n S i ( μ) = å μij||xi - xi||2 j=1
将采样技术与 PAM 结合起来, 不考虑整个数据集合, 而是随机地选择实际数据的一小部分作为数据样
102
2012, 48 (12)
满足: (1)Ci ¹ Φ i = 1 2 K (2)Ci = X
i=1 K
考察上式不难发现, 当样本各自独立成类时, 即
c = n 时, S ( μ) 取得最小值 0。因此单凭该准则是不能
找到最优分类的, 必须同时寻找其他的能够找到最 优分类的条件, 即寻找一个合适的准则函数。
(3)Ci C j = Φ i j = 1 2 K且i ¹ j 从机器学习的角度来看, 聚类所说的类不是事 先给定的, 而是根据数据的相似性和距离来划分, 聚 类的数目和结构都没有事先假定, 所以聚类分析是 一种无监督的学习方法。聚类算法的目的是寻找数 据中潜在的自然分组结构和感兴趣的关系。聚类分 析则是用数学方法研究和处理所给对象的分类以及 各类之间的亲疏程度, 是在对数据不作任何假设的 条件下进行分析的工具。在人工智能和模式识别 中, 聚类分析亦称为 “无先验学习” , 是机器学习中知 识获取的重要环节。目前聚类己被广泛地应用于各 种工程和科学领域, 如心理学、 生物学、 医学等。
3
聚类算法发展
没有任何一种聚类技术 (聚类算法) 可以普遍适
用于揭示各种多维数据集所呈现出来的多种多样的 结构 [3]。根据数据在聚类中的积聚规则以及应用这 些规则的方法, 有多种聚类算法。聚类算法体系结 构如图 1 所示。
3.1
传统聚类方法
Macqueen[4] 提出的 k- 平均方法是解决聚类问题
n n j=1 n
模来代替类的平均值, Lauritzen 提出 EM (Expectation
[7] Maximization) 算法不把对象分配给一个确定的簇,
= 1 å μij x j (i = 1,2, c) n j=1
n
而是根据对象与簇之间隶属关系发生的概率来分配 对象。 Ng 和 Han 提出的 CLARANS (Clustering Large
N
量的该类数据能对平均值产生极大的影响。Kaufman 和 Roussseeuw 提出的 PAM (Partitioning Around Me[5] doid) 和 CLARA (Clustering Large Applications) 算
对 i=1, 2, …, c 和 j=1, 2, …, n, 定义:
100
2012, 48 (12)
Computer Engineering and Applications 计算机工程与应用
数据挖掘中聚类算法研究进展
周 涛, 陆惠玲 ZHOU Tao, LU Huiling
宁夏医科大学 理学院, 宁夏 银川 750004 School of Science, Ningxia Medical University, Yinchuan, Ningxia 750004, China ZHOU Tao, LU Huiling. Clustering algorithm research advances on data mining. Computer Engineering and Applications, 2012, 48 (12) : 100-111. Abstract: Clustering analysis is one of important research branches in data mining. Clustering criterion, similarity degree are illustrated; five kinds of traditional clustering algorithms are summarized, and their latest developments are pointed out; according to attribution ralation of the sample, sample data pre-processing, similarity measure of sample, sample update strategy, high-dimension of sample and integration with other disciplines, there are more than 20 clustering algorithms are explained and summarized, such as granular clustering, uncertainty clustering, quantum clustering, kernel clustering, spectral clustering, clustering ensemble, concept clustering, spherical shell clustering, affinity propagation clustering. That is a good summary and of positive significance for the clustering. Key words: data mining; clustering algorithm; clustering criterion 摘 要: 聚类分析是数据挖掘中重要的研究内容之一, 对聚类准则进行了总结, 对五类传统的聚类算法的研究
Computer Engineering -means PAM CLARA K-modes EM CLARANS ISODATA BIRCH CURE Chameleon STING Wavecluster CLIQUE DBSCAN OPTICS DENCLUE COBWEB CLASSIT AutoClass Competitive Learning LVQ SOM 统计 学方 法 神经 网络 方法
现状和进展进行了较为全面的总结, 就一些新的聚类算法进行了梳理, 根据样本归属关系、 样本数据预处理、 样本的相似性度量、 样本的更新策略、 样本的高维性和与其他学科的融合等六个方面对聚类中近 20 多个新算 法, 如粒度聚类、 不确定聚类、 量子聚类、 核聚类、 谱聚类、 聚类集成、 概念聚类、 球壳聚类、 仿射聚类、 数据流聚 类等, 分别进行了详细的概括。这对聚类是一个很好的总结, 对聚类的发展具有积极意义。 关键词: 数据挖掘; 聚类算法; 聚类准则 文章编号: 1002-8331 (2012) 12-0100-12 文献标识码: A 中图分类号: TP311
1
概述
最早的聚类思想出现于我国的 《战国策.齐策三》
析就是按照某种相似性度量, 具有相似特征的样本 归为一类, 使得类内差异相似度较小, 而类间差异较 大。迄今为止。聚类还没有一个学术界公认的定 义。这里给出 Everitt[1] 在 1974 年关于聚类所下的定 义: 一个类簇内的实体是相似的, 不同类簇的实体是 不相似的; 一个类簇是测试空间中点的会聚, 同一类 簇的任意两个点间的距离小于不同类簇的任意两个
这就是经典的类内平方误差和 (Within-Group Sum of Squared error, WGSS) 准则函数。 K-means 聚类算法的目的就是寻找 μ* = ( μ* ij ) 使得 S ( μ) 取得最 小值, 即
S ( μ*) = min{S ( μ)}
C ={C1 C 2 C K}(K £ N ) , 找 K 个划分, 这 K 个划分
模糊聚类 粗糙聚类
基于粒度的聚类算法 不确定聚类算法 球壳聚类算法 基于熵的聚类算法 核聚类算法 基于概念的聚类算法 谱聚类算法 仿射聚类算法 本体聚类算法 混合属性聚类算法 基于双重距离的聚类算法 基于流形距离的迭代 优化聚类算法 数据流增量聚类算法 基于生物智能的增量 聚类算法 投影寻踪聚类算法 子空间聚类算法 量子聚类算法 球壳聚类算法 聚类集成算法 基于随机游动的聚类算法 其他聚类算法 基于样本的 更新策略 基于样本的 相似度度量 基于样本的 预处理 聚类新算法 基于样本的 归属关系 聚类 算法 基于划分的聚类