当前位置:
文档之家› 文本聚类分析效果评价及文本表示研究
文本聚类分析效果评价及文本表示研究
6.期刊论文高茂庭.王正欧.Gao Maoting.Wang Zheng'ou基于LSA降维的RPCL文本聚类算法-计算机工程与应用
2006,42(23)
文本聚类中,存在诸如文本特征空间维数巨大、聚类的数目不能事先确定等问题.隐含语义分析方法可以对文本特征空间作降维处理并有效地凸现出文本和词条之间的语义关系;次胜者受罚竞争学习规则可以进行有效的聚类并自动确定适当的聚类数目.将这两种方法结合进行文本聚类可以在一定程度上解决维数和聚类数的问题,实验表明,这种方法能够收到较好的聚类效果,同时,实验还验证了向量余弦距离比欧氏距离方法更适合于文本相似度的计算.
(1)深入研究了聚类算法中的平面划分法,采用Java语言编程实现了典型算法k平均值算法和k中心点算法,用来对立项建议书进行聚类分析。
(2)申请书中大量存在的同义词和没有类别特征词对聚类的精度影响较大,因此,在系统中加入了同义词的合并和无特征词的去除,提高了聚类分析的准确率。
(3)在聚类分析结束以后,对分析结果进行了标注,得到了类模型。然后利用类模型实现对新文本的分类。
作者:周昭涛
学位授予单位:中国科学院计算技术研究所
1.期刊论文郑军.王巍.杨武.杨永田.ZHENG Jun.WANG Wei.YANG Wu.YANG Yong-tian基于类间距离参数估计的文
本聚类评价方法-计算机工程2009,35(9)
文本聚类评价算法运用统计学当中的参数估计方法,根据类间距离信息对其分布规律中的数字特征进行参数估计.基于估计的结果确定类间距离合理的取值范围,将不合理的聚类进行调整,并通过聚类有效性判断函数最终确认调整结果.该算法有效地提高聚类结果的准确性,并为聚类算法的选择与分析提供一种可行的方法.实验结果证明了其可行性与有效性.
聚类和粒度具有天然的相通性,如何将粒度计算与聚类分析结合起来目前仍处于起步阶段,尚未形成一个真正系统的完整的理论框架。本文分析了聚类分析和粒度计算概况,探讨了聚类分析的粒度原理和基于粒度聚类算法的一般框架,并基于该框架,提出了一种基于网格密度的文本聚类算法,实验表明,本文所提出的算法是高效的,并且是可行的。最后从商空间理论和信息粒度的角度,分析了模糊聚类的相关问题,探讨了模糊聚类的典型算法和聚类分析的分层递阶结构,并实验分析模糊聚类在文本聚类中的应用。
出数据的结构特征,实现文本聚类分析的可视化。
针对文本特征向量维数高和k-means等方法需要预先确定聚类数的问题。提出了基于LSA、CI、RP及NMF的RPCL文本聚类算法,先运用LSA等方法对文本特征矩阵进行降维处理,再运用RPCL算法进行文本聚类,这些新方法不仅可以有效地降维,还可克服k-means等方法需要预先确定聚类数的困难。
随着信息技术的发展,以电子形式存在的文本信息已经成为人们主要的信息来源.人们迫切需要能够从Web上快速、有效地发现资源和知识的工具.近年来针对文本数据的文本挖掘已逐渐成为人们研究的新课题.其中,对于文本聚类的研究已经引起了广泛的重视,并取得了良好的成果.本文首先对数据挖掘中的聚类分析做了深入的理论研究,以数学的形式表示和讨论了聚类分析中样本类型、样本相似度测量、类的定义等基本概念,分析了五种常用的聚类算法,并对算法性能做了分析与比较.本文随后对于聚类分析在文本挖掘中的应用--文本聚类做了研究,讨论了将无结构的文本数据转化为聚类算法可以处理的结构化数据的方法和以特征向量形式表示的文本聚类算法.最后,给出了一个简单的文本聚类模型,并基于K-means文本聚类算法,对模型做了一种设计和实现.
最后,根据上述研究,本文实现了SOM和SVM-SOM算法,并在此基础上,利用现实领域中提供的语料库对聚类效果进行了测试,同时利用F值、查准率和查全率对两种算法进行了对比实验,并通过加入噪声数据测试了两者的鲁棒性。从实验结果来看后者可以提高聚类效果并具有更好的鲁棒性。
5.学位论文李健聚类分析及其在文本挖掘中的应用2005
基于向量空间模型,提出了一种基于双词关联的文本特征选择新模型,这种模型在向量空间模型的基础上,增加了文本的双词关联信息,使得向量空间模型中所包含的文本特征信息更加丰富、更加准确,结合隐含语义分析方法降维后,不仅有效地降低了维数,还进一步减少噪声凸现文本的语义特征,从而提高文本挖掘的质量。
基于文档标引图特征模型,提出了一种新的基于短语的相似度计算方法,并采用变换函数对文档相似度值进行调整以使其获得了更好的可区分特性,从而更加有利于文本的聚类分析、分类等处理。
将基于后缀树的聚类方法用于中文文本聚类中,这种方法将文本看成是一些短语的集合,通过后缀表达文本的相似关系,实现文本聚类。这种方法可以解决多主题的文本聚类问题,并克服了k-means等硬聚类算法将文本严格划分类问题,实现文本的软聚类。
10.学位论文朱强粒度计算在聚类分析中的应用2007
粒度计算即信息的粒化处理,是关于信息处理的一种新的概念和计算范式,覆盖了粒度方面的方法、理论、技术等几乎所有的领域,是人工智能领域的研究热点之一。它模仿人类的思考方式,即人们能从极不相同的粒度上观察和分析同一问题,而且能够很快地从一个粒度世界跳到另一个粒度世界,往返自如,毫无困难,在知识发现等领域有着非常广泛的应用。
本文链接:/Thesis_Y1005281.aspx
下载时间:2010年5月11日
8.期刊论文修宇.王士同.朱林.宗成庆.XIU Yu.WANG Shitong.ZHU Lin.ZONG Chengqing极大熵球面K均值文本聚
类分析-计算机科学与探索2007,1(3)
提出了一种基于极大熵理论的球面K均值文本聚类算法ME-SPKM.该算法利用了传统文本聚类算法SPKmeans中使用的余弦相似度度量,进而引入极大熵理论构造了适合文本聚类的极大熵目标函数.对文本数据的实验证明了极大熵球面K均值文本聚类算法取得了比传统文本聚类算法更好的聚类效果.
9.学位论文高茂庭文本聚类分析若干问题研究2006
面对大规模的、高维的文本数据,如何建立有效的、可扩展的文本聚类算法是数据挖掘领域的研究热点。针对这些问题,本文对文本聚类分析所涉及的若干问题进行了较深入的研究,主要包括如下几个方面:
提出了一种基于投影寻踪的文本聚类新算法,该方法利用遗传算法寻找最优投影方向,将文本特征空间投影到一维空间上,从而以直观的方式显示
用研究-科学技术与工程2005,5(24)
在分析了传统模糊聚类FCM算法和基于遗传聚类算法优点和不足的基础上,提出了一种基于免疫单亲遗传和模糊C均值的改进遗传聚类算法,克服了FCM的局部最优问题以及标准遗传算法聚类时的搜索速度和聚类精度的矛盾,并将该算法用于文本聚类,实验表明该算法是有效的.
4.学位论文马金亮支持向量机的神经网络中文文本聚类研究2009
7.期刊论文徐森.卢志茂.顾国昌.XU Sen.LU Zhi-Mao.GU Guo-Chang基于矩阵谱分析的文本聚类集成算法-模式
识别与人工智能2009,22(5)
聚类集成技术可有效提高单聚类算法的精度和稳定性,其中的关键问题是如何根据不同的聚类成员组合为更好的聚类结果.文中引入谱聚类算法解决文本聚类集成问题,设计基于正则化拉普拉斯矩阵的谱算法(NLM-SA).该算法基于代数变换,通过求解小规模矩阵的特征值和特征向量间接获得正则化拉普拉斯矩阵的特征向量,并用于后续聚类.进一步研究谱聚类算法的关键思想,设计基于超边转移概率矩阵的谱算法(HTMSA).该算法通过求解超边的低维嵌入间接获得文本的低维嵌入,并用于后续K均值算法.在TREC和Reuters文本集上的实验结果验证NLMSA和HTMSA的有效性,它们都获得比其它基于图划分的集成算法更为优越的结果.HTMSA获得的结果比NLMSA略差,而时间和空间需求则比NLMSA低得多.
其次,针对汉语自身的特点分析了中文文本聚类中所涉及到的关键问题及技术,包括中文切词技术、中文文档特征表示:向量空间模型(VSM)和特征降维的方法,并提出了广义特征降维的理念。
然后,结合自组织特征映射神经网络(SOM)和支持向量机理论(SVM)给出了一种文本聚类算法-支持向量机的神经网络中文文本聚类算法(SVM-SOM),阐述了算法原理,分析了算法的收敛性并列出了算法步骤。
中国科学院计算技术研究所
硕士学位论文
文本聚类分析效果评价及文本表示研究
姓名:周昭涛
申请学位级别:硕士
专业:计算0050601
文本聚类分析效果评价及文本表示研究
随着信息技术的发展,以电子形式存在的文本信息已经成为人们主要的信息来源。人们迫切需要能够快速、有效地发现资源和知识的工具。近年来针对文本数据的文本聚类已逐渐成为人们研究的新课题,已经引起了人们的广泛重视。但是国内中文文本聚类的研究还处于初期阶段,还存在许多问题亟待解决。
本文首先对文本聚类的研究背景和国内外的研究现状进行了介绍,并分析了数据挖掘的相关概念、主要的聚类分析算法以及支持向量机理论。
(4)采用Java、JSP技术开发了B/S模式下用户操作子系统。该子系统采用了JSP技术,实现了人机交互,方便了用户使用,并且通过程序将分析结果画成图形,给出了直观的表示。
3.期刊论文时念云.蒋红芬.徐九韵.SHI Nianyun.JIANG Hongfen.XU Jiuyun改进遗传算法在模糊文本聚类中的应
2.学位论文刘延亮一种文本聚类原型系统的设计与实现2006
本文提出了一种文本聚类系统原型的设计与实现。该系统的设计是针对国家自然科学基金“项目管理中项目关联分析与立项决策支持系统研究”的实际需求而产生的。在自然科学基金的评审过程中,需要由专家对大量的立项建议书进行评审,这一工作是相当繁重的,而文本聚类系统的应用,可以大大减小工作强度,提高工作效率,节约评审时间。本文设计了文本聚类系统的原型框架,并在该体系框架下,详细地讨论了系统中各个子系统的分析设计和实现。本文主要在以下方面开展工作:
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。聚类分析是一个非常活跃的研究领域,是数据挖掘的主要方法之一。它是一种无监督分类:没有预定义的类。聚类通过观察式学习,将数据对象分组为多个类或簇,在同一簇中的对象之间具有较高的相似度,而在不同簇中的对象差别较大。其广泛应用于文本分类、金融分析、数据评估、基因研究及市场调查分析等领域。