当前位置：文档之家› 聚类算法研究综述

聚类算法研究综述

双星
５５“ 神舟一号”试验飞船
１９９９年１０月１４日，在太原卫星发射中心，用“ 长征四号乙 ”运载火
补充材料：发射“ 神舟一号”的“ 长征二号Ｆ”，是“ 长征”系列运载火箭
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
１９９６年６月１２日，在太原卫星发射中心，用“ 长征二号丙改”运载火箭成功地将两颗“ 铱星”送入预定轨道。此次发射是“ 长征”系列运载火箭的第５７次飞行，也是自１９９６年１０月以来“，长征”系列运载火箭连续１５次成功发射，又是中方履行“ 铱星”发射合同的第三次补网铱星成功发射服务。中国航天界在参加这种世界多个国家和地区合作的全球卫星个人通信系统的“ 铱星 ”发射中，已连续取得了三次组网、三次补网发射的成功。中方按合同已成功发射了６６颗中的１２颗铱星，其余的铱星将由美国德尔它火箭和俄罗斯质子火箭发射。
４．１ＣＬＡＲＡＮＳ算法ＣＬＡＲＡＮＳ是一种ｋ－中心点聚类方法。它首先随机选择一个点作为
当前点，然后随机检查它周围不超过参数Ｍａｘｅｉｇｈｂａｒ个的一些邻接点。假如找到一个比它更好的邻接点，则把它移入该邻接点，否则把该点作为局部最小量。然后再随机选择一个点来寻找另一个局部最小量，直至所找到的局部最小量数目达到用户要求为止。该算法要求聚类的对象必须预先调入内存，并且需多次扫描数据集，其时空复杂度都相当大，虽通过引入Ｒ＊—树结构对其性能进行改善，但构造和维护代价太大。该算法对脏数据和异常数据不敏感，但对数据输入顺序异常敏感，且只能处理凸形或球形边界聚类。４．２ＢＩＲＣＨ算法
卫星导航定位系统（二十四）
２００７年第１７卷第１期收稿日期：２００６－０９－１５
曹来发
（华北电力设计院，北京，１０００４３）
摘要：介绍了美国铱星（双星）“、长四乙”一箭双星“、神舟一号”试验飞船“、中星２２”
通信卫星、第一颗“ 资源二号”卫星等的发射、升空和入轨情况。
２聚类算法基本原理概述
俗话说“：人以群分，物以类聚”。聚类就是利用计算机技术来实现这一目的的一种技术。其输入是一组未分类的记录，且事先不知道如何分类，也可能不知道要分成几类，通过分析数据，合理划分记录集合，确定每个记录所属的类别，把相似性大的对象聚集为一个簇。聚类的标准是使簇内相似度尽可能大、簇间相似度尽可能小。
基于网格的聚类算法，把空间量化为有限个单元（即长方体或超长方体），然后对量化后的空间进行聚类。此类算法具有很快的处理速度。缺点是只能发现边界是水平或垂直的聚类，而不能检测到斜边界。此类算法具有很快的处理速度。时间复杂度一般由网格单元的数目决定，而与数据集的大小无关。此外，聚类的精度取决于网格单元的大小。此类算法不适用于高维情况，因为网格单元的数目随着维数的增加而呈指数增长。所有基于网格的聚类算法都存在下列问题：一是如何选择合适的单元大小和数目；二是怎样对每个单元中对象的信息进行汇总。基于网格的聚类算法主要有ＳＴＩＮＧ，ＷａｖｅＣｌｕｓｔｅｒ，ＣＬＩＱＵＥ，ＭＡＦＩＡ，ＯｐｔｉＧｒｉｄ等。３．５其他聚类
ＷａｖｅＣｌｕｓｔｅｒ采用小波变换聚类。它首先通过在数据空间上强加一个多维网格结构来汇总数据，然后采用一种小波变换来变换原特征空间，在变换后的空间中找到密集区域。ＷａｖｅＣｌｕｓｌｅｒ能有效处理大数据集合，发现任意形状的簇，成功地处理孤立点。对于输入的顺序不敏感，不要求指定诸如结果簇的数目或邻域的半径等输入参数。ＷａｖｅＣｌｕｓｔｅｒ在效率和聚类质量上优于ＢＩＲＣＨ，ＣＬＡＲＡＮＳ和ＤＢＳＣＡＮ。
摘要：阐述了聚类算法基本原理，介绍了各种聚类算法，并比较分析了几种典型聚类
算法的优点与不足，以便于对聚类算法作进一步的研究。
关键词：数据挖掘；聚类算法；数据处理
中图分类号：ＴＰ２７４
文献标识码：Ａ
１数据挖掘
数据挖掘是指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。它是人工智能和数据库发展相结合的产物，是国际上数据库和信息决策系统最前沿的研究方向之一。数据挖掘主要的算法有分类模式、关联规则、决策树、序列模式、聚类模式分析、神经网络算法等等。聚类是数据挖掘中的一个非常重要的研究课题，广泛应用于各个领域，它对未知数据的划分和分析起着非常有效的作用并能达到合理的效果。研究和运用聚类是完成数据挖掘任务的重要手段，因此对聚类的研究具有重要的理论价值和现实意义。
给定半径的领域中包含的对象不能少于某一给定的最小数目。ＤＢＳＣＡＮ
算法不进行任何的预处理而直接对整个数据集进行聚类操作。当数据量
５结语
非常大时，就必须有大量内存支持，Ｉ／Ｏ消耗也非常大。其时间复杂度为Ｏ（ｎｌｏｇｎ），聚类过程的大部分时间用在区域查询操作上。ＤＢＳＣＡＮ算法对参数Ｅｐｓ及ＭｉｎＰｔｓ非常敏感，且这两个参数很难确定。４．４ＳＴＩＮＧ算法
人工神经网络也常用于聚类，如自组织特征映射（ＳＯＭ）网络等。此外，还有一些子空间聚类算法，它们认为在高维数据集中，聚类往往不是存在于整个空间中，而是存在于某些子空间中。它们针对高维空间数据，寻找子空间中的聚类。主要子空间聚类算法有ＣＬＩＱＵＥ，ＰＲＯＣＬＵＳ等。
４典型聚类算法分析
ＳＴＩＮＧ是一种格的多分辨率聚类技术。它将空间区域划分为矩形单元，针对不同级别的分辨率，通常存在多个级别的矩形单元。ＳＴＩＮＧ是独立于查询的，有利于并行处理和增量更新。但由于ＳＴＩＮＧ采用了一个多分辨率的方法来进行聚类分析，聚类的质量取决于网格结构的最低层粒度。并且，ＳＴＩＮＧ在构建一个父单元时没有考虑子单元和其相邻单元之间的关系，因此，尽管该技术处理速度快，但可能降低簇的质量和精确性。４．５ＷａｖｅＣｌｕｓｔｅｒ算法
ＤＢＳＣＡＮ是基于密度的聚类算法。该算法利用类的密度连通性可以快速发现任意形状的类。其基本思想是：对于一个类中的每个对象，在其
１４５
科技情报开发与经济
ＳＣＩ－ＴＥＣＨＩＮＦＯＲＭＡＴＩＯＮＤＥＶＥＬＯＰＭＥＮＴ＆ＥＣＯＮＯＭＹ
文章编号：１００５－６０３３（２００７）０１－０１４６－０２
科技情报开发与经济
ＳＣＩ－ＴＥＣＨＩＮＦＯＲＭＡＴＩＯＮＤＥＶＥＬＯＰＭＥＮＴ＆ＥＣＯＮＯＭＹ
文章编号：１００５－６０３３（２００７）０１－０１４５－０２
聚类算法研究综述
２００７年第１７卷第１期收稿日期：２００６－０６－２２
蔡元萃１，陈立潮２
（１．中北大学电子与计算机科学技术学院，山西太原，０３００５１；２．太原科技大学计算机科学与技术学院，山西太原，０３００２４）
主要的分层聚类算法有ＢＩＲＣＨ，ＣＵＲＥ，ＲＯＣＫ，Ｃｈａｍｅｌｅｏｎ，ＡＭＯＥＢＡ，ＣＯＢＷＥＢ，ＣｌｕｓｔｅｒｉｎｇｗｉｔｈＲａｎｄｏｍＷａｌｋｓ算法等。
３．３密度聚类很多算法中都使用距离来描述数据之间的相似性，但是，对于非凸
数据集，只用距离来描述是不够的。对于这种情况，要用密度来取代相似性，这就是基于密度的聚类算法。基于密度的算法从数据对象的分布密度出发，把密度足够大的区域连接起来，从而可以发现任意形状的类。此类算法除了可以发现任意形状的类，还能够有效去除噪声。常见的基于密度的聚类算法有ＤＢＳＣＡＮ，ＤＢＣＬＡＳＤ，ＯＰＴＩＣＳ，ＤＥＮＣＬＵＥ等。３．４网格聚类
３聚类算法分类研究
聚类属于无监督学习。聚类算法可以分为划分聚类、层次聚类、密度型聚类、网格型聚类和其他聚类等几种。３．１划分聚类
划分聚类算法把数据点集分为ｋ个划分，每个划分作为一个聚类。它一般从一个初始划分开始，然后通过重复的控制策略，使某个准则函数最优化，而每个聚类由其质心来代表（ｋ－ｍｅａｎｓ算法），或者由该聚类中最靠近中心的一个对象来代表（ｋ－ｍｅｄｏｉｄｓ算法）。划分聚类算法收敛速度快，缺点在于它倾向于识别凸形分布大小相近、密度相近的聚类，不能发现分布形状比较复杂的聚类，它要求类别数目ｋ可以合理地估计，并且初始中心的选择和噪声会对聚类结果产生很大影响。主要的划分聚类算法有ｋ－ｍｅａｎｓ，ＥＭ，ｋ－ｍｅｄｏｉｄｓ，ＣＬＡＲＡ，ＣＬＡＲＡＮＳ等。常见的ｋ－ｍｅｄｏｉｄｓ算法有ＰＡＭ算法、ＣＬＡＲＡ算法、ＣＬＡＲＡＮＳ算法。３．２分层聚类
分层聚类算法把数据对象分组而形成一个聚类树。分层聚类算法分为两大类：聚结型和分裂型。聚结型算法采用自底向上的策略，首先把每个对象单独作为一个聚类，然后根据一定的规则合并成为越来越大的聚类，直到最后所有的对象都归入到一个聚类中。大多数分层聚类算法都属于聚结型算法，它们之间的区别在于类间相似度的定义不同。与聚结型算法相反，分裂型算法采用自顶向下的方法。一般情况下不使用分裂型方法，因为在较高的层很难进行正确的拆分。纯粹的分层聚类算法的缺点在于一旦进行合并或分裂之后，就无法再进行调整。现在的一些研究侧重于分层聚类算法与循环的重新分配方法的结合。

e商务文档

聚类算法研究综述

相关文档推荐：