聚类算法的研究综述
华东交通大学理工学院 Institute of Technology. East China Jiaotong University 毕 业 论 文 Graduation Thesis (2009―7>2013年) 题 目 聚类算法的研究综述 分 院: 电子与信息工程分院 专 业: 信息管理与信息系统 班 级: 信管2009-2 学 号: 20090210450221 学生姓名: 于继伟 指导教师: 葛菁 起讫日期: 2012-12――2013-05 华东交通大学理工学院 毕业设计(论文)原创性申明 本人郑重申明:所呈交的毕业设计(论文)是本人在导师指导下独立进行的研究工作所取得的研究成果。设计(论文)中引用他人的文献、数据、图件、资料,均已在设计(论文)中特别加以标注引用,除此之外,本设计(论文)不含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式表明。本人完全意识到本申明的法律后果由本人承担。 毕业设计(论文)作者签名: 日期: 年 月 日 毕业设计(论文)版权使用授权书 本毕业设计(论文)作者完全了解学院有关保留、使用毕业设计(论文)的规定,同意学校保留并向国家有关部门或机构送交设计(论文)的复印件和电子版,允许设计(论文)被查阅和借阅。本人授权华东交通大学理工学院可以将本设计(论文)的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编毕业设计(论文)。 (保密的毕业设计(论文)在解密后适用本授权书) 毕业设计(论文)作者签名: 指导教师签名: 签字日期: 年 月 日 签字日期: 年 月 日 摘 要 聚类算法的兴起,大大地改变了我们的生活和工作方式。这是计算机科学的发展和相关学科发展的必然结果。聚类算法作为数据挖掘中的一部分,我们不仅利用聚类算法进行我们的科研,而且我们的日常生活中聚类算法的应用也无处不在。可以说和我们的生活息息相关。目前这方面的专家也在致力于聚类算法的研究,在现有的聚类算法的基础上改进以及发掘出新的聚类算法。因为没有什么是一成不变的,聚类算法也有缺点,因此必须不断改进和创新。 例如我们的学校、政府单位、企业都需要用到聚类算法和聚类分析,由于事物的相似性,利用这一方法,我们不仅可以将事物分类,最后得出他们之间的相似性,或者相异性,通过聚类得到我们需要的结果。利用这些数据和资料我们可以更完美的进行我们的工作和研究。本文结合一些文献,总结聚类算法的研究的目的、方法、成果和结论。 关键词:互联网;数据挖掘;聚类算法;算法应用;算法发展趋势 Abstract The rise of the clustering algorithm, greatly changed the way we live and work. This is the inevitable result of the development of computer science and related disciplines development. We not only take advantage of clustering algorithm to carry out our research and our daily lives clustering algorithm applications everywhere. It can be said that our lives. Experts in this field are also committed to the research of clustering algorithm, to improve and discover new clustering algorithm on the basis of the existing clustering algorithm. Because nothing is set in stone, the clustering algorithm also has shortcomings, it is necessary to continuous improvement and innovation. Such as our schools, government agencies, businesses need to use clustering algorithm and clustering analysis, due to the similarity of things, the use of a method, not only can we classify things, the conclusion that the similarities between them, or dissimilarities. Use of these data and information that we could be more perfect for our work and research. In this paper, some of the literature, the summary of the clustering algorithm purpose of the study, methods, results and conclusions. Key words:Internet; clustering algorithm; algorithm is applied; algorithm trends
目 录 摘 要 I 英文摘要 II 目 录 III 引 言 1 1 聚类算法的产生,现状及其发展意义和趋势 2 1.1 聚类算法的定义和研究聚类算法的意义 2 1.1.1 何谓聚类算法? 2 1.1.2 研究聚类算法的意义 2 1.2 聚类算法的现状及其发展趋势 2 1.2.1 聚类算法的基本内容和现状 2 1.2.2 聚类算法的发展趋势 3 2 聚类算法的常见方法,常见算法之间的比较,聚类算法的学习 2.1 聚类算法现今的常用算法和主要比较 4 2.1.1 常用聚类算法(1) 4 2.1.2 常用聚类算法(2) 4 2.1.3 几种聚类算法的优缺点 5 2.2 聚类算法实际应用的几个领域 5 2.2.1 聚类算法在商业中的应用 5 2.2.2 聚类算法在生物学中的应用 6 2.2.3 聚类算法在地理学中的应用 6 3 聚类算法的典型要求,聚类算法的特色和目标以及聚类的基本步骤 3.1 聚类算法的典型要求和条件 8 3.1.1数据集对聚类算法的要求 8 3.1.2聚类过程简介 9 3.1.3如何选择适当的聚类算法 9 3.2 聚类算法的特色与研究进度 10 3.2.1聚类算法的主要目标 10 3.2.2聚类算法的主要特色 10 3.2.3聚类算法的研究进度 10 3.3 新发展的聚类算法 11 3.3.1基于模糊的聚类算法和基于粒度的聚类算法 11 3.3.2量子聚类和核聚类 12 结 论 13 参考文献 14 后 记 16 引 言 由于受到古老分类学的影响,出现了数据挖掘中的聚类算法科学。这一学科的准则就是围绕着各个类之间的相似性和相异性,找出之间的必然联系以及各自的优缺点。数据挖掘中的聚类算法是如何帮助我们进行分类以及找出物理和抽象的东西之间的相同点和不同点,根本上帮助我们解决我们的很多问题。本文会阐述聚类算法研究的意义以及目前聚类算法的现状,还有对聚类算法未来的展望。以及科学家们所做的努力。聚类分析的算法多种多样,各有各的差异,优缺点相对来说较为明显,本文会说明几种常见的聚类算法的概念以及它们的长短好坏意义方法。这一门课题的跨学科性非常的大,我们不仅要学习本身的知识,还要对其他方面的知识有所掌握,这样才能对聚类算法有一个比较强的认识。实际应用方面聚类算法的用处也是非常的大,本文会重点讲述聚类算法在商业,生物学和地理学中的应用,聚类算法是如何帮助科学家们解决各个领域的问题。每一个学科都会有一个或者多个执行条件,聚类算法也不例外。本文会讲述到聚类算法有哪些执行条件和典型要求。聚类算法最突出的特点是什么,我们要抓住聚类算法的特色去研究学习这个课题。聚类算法的进步是很快的,本文也会介绍一些新兴的聚类算法,相信通过所有学者的努力,聚类算法肯定有美好的未来。 1 聚类算法的产生、现状及其发展意义和趋势 1.1 聚类算法的定义和研究聚类算法的意义 1.1.1 何谓聚类算法? 聚类算法是数据挖掘中的一个分支,就是将物理或者抽象的东西进行分类比较,前提是基于各个类之间的相似性和相异性,更多的取决的是元素之间的相异性。我们将我们要进行研究的任务数据集进行分析、计算、比较,最后得出我们需要的结果和数据。这一课题的研究包括了数学、计算机学、统计学、经济学以及生物学。 1.1.2 研究聚类算法的意义 首先我们根据聚类的定义,可以知道聚类的意义就是我们可以得出事物之间的关联。不管这些事物是实体还是抽象对象,我们都可以了解他们本身的性质和相互之间的关联。 在我们的现实生活中,存在很多这样的例子。 例如古老的时候研究生物学,我们并没有现在的这么多先进的设备。我们唯一可以依靠的就是比较生物之间的不同,这种不同可以是外形,习性等这些基本特征。还有我们现在的商业中,就拿一个超市来做例子。这个超市的消费群体主要是一些什么样的人,我们将所有的消费群体放在一起比较,可以很容易的得出一组数据。显然,我们可以通过这些数据得出主要消费群体和次要消费群体,从而改进超市的经营策略,获得更大的盈利。 因此,聚类算法存在于我们的生活中以及我们的研究中,它深深的影响着我们的文明和人类的发展。 1.2 聚类算法的现状及其发展趋势 1.2.1 聚类算法的历史和现状 “物以类聚,人以群分”,在早期的分类学中,我们仅仅只是以一种比较的方法和专业知识来进行分析,一个类或者一个群之间的元素相似性。这就是最早的统计分析。 但是这种统计分析方法往往是凭借着本身的经验和一些专业知识,并没有利用数学和计算机工具进行测试。随着现在的社会对分类的要求越来越高,这种分析的结果已经无法满足我们的要求,确切的说是无法满足商业、科研以及生活的需求。现如今的聚类算法已经多种多样,而且比较完善。基本如今的聚类算法可以满足我们的要求。不管我们从事什么样的活动或者工作一定能找到相对适用的