当前位置:文档之家› Kmeans聚类算法研究及应用

Kmeans聚类算法研究及应用

通过分析证实,合成初始凝聚点聚类结果整体上要优于实际观测点作为初始凝聚点,因为合成初始凝聚点的代表性比实际的观测点要高;在聚类个数K相等的情况下,任何一种选择初始凝聚点的方法,随着试验次数的增加,所有试验次数中误差平方和的最小值越来越小,类内的同质性越来越大,说明用K-Means算法进行聚类,同一方法改变初始凝聚点组合多次运行,并取最优结果的必要性。
本文首先详细分析了聚类算法的思想、步骤和理论基础。目前,已经提出了很多的聚类算法,它们基本上可以分为以下几种方法:基于层次的聚类、基于划分的聚类、基于密度的聚类以及基于模型的聚类,这些方法各有优缺点,也出现了很多基于这些方法的改进算法。本文在第三章选取了K-means、LVQ、核聚类三种经典的聚类算法进行了实验,其中,又对比了LVQ算法的改进算法MLVQ,最后选取K-means算法作为研究大类别汉字识别的工具。并结合了模式识别中的特征提取算法和LDA算法提高识别率,在特征提取算法中,我们着重分析了两种特征提取算法:Gabor特征和梯度特征,实验证明梯度特征的识别效率略优于我们常用的Gabor特征,并且经由LDA降维后的特征向量识别率也有很大的提高。
本文第一章主要阐述客户细分的研究背景,并说明研究的动机与目的以及本文研究的步骤。
本文第二章对实现客户细分的相关技术理论进行了总结和回顾。利用数据挖掘方法进行客户细分一个关键的问题就是客户细分方法论,在参阅大量国内外理论研究和实践文献的基础上,归纳总结了客户细分方法论,作为后续研究的基础。
客户细分通常用聚类分析方法来实现,在阐述了聚类分析相关概念如距离、数据矩阵、变量标准化等基础上,重点分析了K-Means聚类的优点和缺点。K-Means聚类是一种优化聚类算法,运算速度快,适宜处理大数据,但是聚类结果与变量的量纲、异常值的处理方式、变量的维度、观测的顺序以及
3.期刊论文汪嘉.姜明富.李友国.Wang Jia.Jiang Mingfu.Li Youguo一种基于改进的K-Means算法的聚类分析方
法-农业网络信息2009(10)
本文将最大最小距离算法和传统的K-Means算法相结合,提出了一种改进的K-Means算法,此算法可以弥补传统K-Means算法中初始中心点难以确定的缺点,有效地解决了传统K-Means算法对初始中心的选择具有较大依赖性以及由于初始聚类中心选择不当,算法极易陷入局部极小点的问题[1,2].
本文的主要贡献及创新之处在于:
1)从写作思路上来看。近年来,数据挖掘综述方面的文章比较多,但是写数据挖掘具体实施的实证研究论文不多见,是本研究的一个有益尝试;目前利用K-Means算法进行聚类实证研究的文章,大多对如何利用K-Means分析的不够深入,也没有K-Means算法进行实证分析的详细过程,对细分后如何解释类和导出应用策略研究的较多,也就是重“业务分析”轻“理论技术”,但是,运用得当的技术可以使细分后的群体同质性更高,也更利于结果的解释,因此本文走的是重“技术思路”轻“业务分析”的路线,用实际数据来探索利用K-Means算法进行客户细分的数据挖掘流程。
武汉理工大学
硕士学位论文
K-means聚类算法研究及应用
姓名:张建辉
申请学位级别:硕士
专业:系统工程
指导教师:王学锋
20070401
K-means聚类算法研究及应用
作者:张建辉
学位授予单位:武汉理工大学
本文第四章在某银行客户数据的基础上,借助SAS/STAT、EM所提供的统计分析和数据挖掘方法,围绕认识和理解客户的目标,主要利用K-Means算法对客户数据进行实证分析,探索K-Means聚类用于客户细分的主要过程和一般分析方法。
本章共对比了实践中比较常用的八种选择初始凝聚点的方法,对他们的聚类结果进行了对比分析,并给出方法实现的SAS代码。这八种方法共分为两种类别:合成初始凝聚点的方法;实际观测点作为初始凝聚点的方法。前者如用初始聚类的质心作为聚类的初始凝聚点(Random centriods)、爬行中点法(Scrambled midpoint)、爬行中位数法(Scrarabled median)、非爬行中点法(Unscrambled midpoint),后者如利用SAS默认的两种限制凝聚点替代的方法进行种子选择(记为Replace full)、完全随机法(Random)、拆分法(Breakup)、对每个观测的所有变量值求和(Feature Value Sums)。
1.学位论文邢留伟K-Means算法在客户细分中的应用研究2007
无论是金融行业,还是电信行业,日益激烈的竞争使企业认识到客户是他们真正的资产,主要工作也都是围绕保留现有客户和发展新客户展开,营销方式也从大众化营销转为通过差异化、一对一营销来实现客户满意和公司获利的双赢,而差异化、一对一营销的关键就是有效的客户细分。客户细分的关键问题就是找出客户的特征,通过一些统计分析方法可以将客户隐藏在数据中的特征挖掘出来,从而进行分类。
3)从K-Means方法的应用理念角度来看。国内的实证研究文章大多数提到了K-Means是一种局部最优算法,但是并没有指出在现有可利用的工具软件下,如何改善局部最优的困境。本文经过分析指出,对于K-Means聚类结果的技术评价不以算法收敛为准则,而是取通过选取不同初始凝聚点组合多次运行所达到的最小类内残差平方和(SSE)所对应的那个聚类结果为最终结果,可以有效地改善局部最优的状况;K-Means聚类的结果与初始凝聚点选取有很大的关系,本文首次提出无论哪种选择初始凝聚点的方法,只要选择多种初始凝聚点组合方案进行实验,均可以取得较为理想的结果,而且为改善局部最优的状况必须选择不同的初始凝聚点组合进行多次聚类。
6.学位论文杨军聚类分析及其在大类别汉字识别中的应用2007
随着科学技术的快速发展,人们可以得到越来越多的信息。但是,要从这些大量数据中找到数据之间的模式变得越来越困难。为了找到大数据集合中的模式,人们引入了聚类分析技术。今天,聚类分析已广泛用于数据挖掘、模式识别、图像处理等领域。本文主要研究了聚类分析算法在大类别模式汉字识别中的应用。
为了验证K-Means算法聚类的有效性,本文用神经网络方法SOM(Self-Organized Map)对同样的客户数据进行聚类,结果发现两种模型的一致性很高,说明K-Means聚类结果是稳定的、有效的。并用判别分析方法进一步评估了分群的稳定性。
最后对细分结果解释和模型部署以及模型应用方面应注意的问题进行了简单阐述。
5.期刊论文翟音.罗萍.ZHAI Yin.LUO Ping基于K-means算法的产品市场定位聚类分析-电脑知识与技术
2008,3(26)
聚类算法是数据挖掘中核心技术之一,而k-means算法在经典聚类算法中占有重要地位.根据市场调查中的顾客感知质量,感知价格,市场份额和品牌类别为测试数据,用k-means算法进行数据挖掘,充分利用数据挖掘结果,得出符合市场现状的市场定位结论.
4.学位论文孙总参数据挖掘中聚类算法的研究与应用2004
该文首先系统的介绍了数据挖掘的基本技术,重点介绍了聚类分析的相关技术.在深入分析客户信息数据库CID(Customer Information
Database,CID)数据的基础上,依据专家建议,确定该文的挖掘目标:对银行客户进行聚类分析,在客户中发现不同的客户群,从而有助于金融政策的调整和制定.其次,针对CID数据库中数据的特点以及该文的研究目标,该文采用属性选择、数据清理、属性重构、数据归约和数据变换等方法对CID数据库进行处理.数据预处理技术改进了数据的质量,提高了聚类分析过程的精度和性能.另外,该文着重对聚类算法进行了研究.由于CID数据库同时含有数值型数据和符号型数据,该文选用K-Means算法及其变形作为主要方法,采用两种策略对CID数据库进行聚类分析:一种是把符号类型的数据转化为数值型数据,用能处理数值型数据的K-Means算法进行分析;另一种是直接利用可以处理混合属性的K-Prototypes算法来进行聚类分析.然后分别对这两种方法的聚类结果进行了分析,并对这两者的效率进行了对比.直接K-Means算法其时间复杂性与对象数目和聚类数目成比例,当对大型数据库进行分析时,其计算代价是相当高的.针对其在处理大数据集时的不足,该文给出了基于k-d树的K-Means聚类分析算法.该方法采用k-d树作为主要的存储结构,将数据信息存放在k-d树中.实验表明,其运行效率较直接K-Means算法有了明显的提高,充分显示出采用k-d树作为存储结构的优点.最后,该文总结了已有的研究工作,并对未来工作进行了展望.
客户细分通常用聚类分析方法来实现,其中K-Means算法是实践中最为常用的数据挖掘算法之一,在处理大数据量方面有绝对优势,而且可以取得较好的效果。
在客户细分中,围绕K-Means聚类,如何依据通用的数据挖掘方法论,有针对性地将K-Means应用于客户数据建模中,对这些问题的实证研究在国内尚个多见。因此,从数据挖掘建模的角度,对用K-Means算法对客户进行聚类的问题进行理论分析和实证研究,具有一定的现实意义。
K个初始凝聚点的选择等都有很大的关系,本章着重对影响K-Means聚类结果的因素尤其是初始凝聚点的选择方法进行了理论上的分析和总结,也对K-Means聚类在实际中应用状况进行了文献回顾和探讨。
聚类结果对实际是否有意义,需要对结果从技术和业务两个方面进行评估,本章对聚类结果好坏的评价标准进行了探讨。K-Means算法对高维数据的聚类效果较差,本文引进用主成分分析方法对高维数据进行降维。
本文第五章为研究结论。通过实证分析发现,用K-Means算法对客户进行聚类需要重复多次运行以取得较为理想的结果。由于数据挖,比如对客户进行聚类,究竟利用过去三个月、六个月还是十二个月的数据并没有理论做支撑,主要还得看细分的效果。本文在最后指出了本研究的贡献和不足,并给出了用K-Meatls算法进行客户细分后续研究的方向。
2)从方法处理的角度来看。基于SAS的K-Means聚类实证研究不多,本文给出了利用SAS进行K-Means聚类,选择初始凝聚点常用的八种方法的SAS代码,有一定的实践参考价值;用SAS/EM的神经网络方法(Self-Organized Map)和判别分析方法对K-Means聚类所得到的结果进行验证,说明K-Means聚类结果的有效性和稳定性;
相关主题