浙江工业大学硕士学位论文基于语义相似度的中文文本相似度算法研究姓名:金希茜申请学位级别:硕士专业:管理科学与工程指导教师:孟志青;蒋敏20091101浙江T业人学颂l:学位论文基于语义相似度的中文文奉相似度算法研究基于语义相似度的中文文本相似度算法研究
摘要在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。目前多数文本相似度算法是以向量空间模型(VSM)为基础的,但这种方法会引起高维稀疏的问题。而且,这类算法没有很好地解决文本数据中存在的自然语言问题:同义词和多义词。这些问题干扰了文本相似度算法的效率和准确性,使相似度计算的性能下降。本文采用一种新的思路,在传统的文本相似度算法中融入语义相似度的计算以提高文本相似度计算的性能。本文对现有的文本相似度算法和语义相似度计算作了深入讨论,在此基础上提出一种基于语义相似度的中文文本相似度算法。本文运用所提出的算法针对某高校某学院的在线毕业设计管理信息系统中学生的毕业论文文本进行了相似度实验,对算法进行了有效性验证。经实验证明,本文提出的算法比传统的文本相似度算法具有更高的效率和正确性。这一课题的研究及其成果对于中文信息处理将有一定的参考价值和良好的应用前景。
关键词:文本相似度,语义相似度,分词,PHP浙江T业人学颂l:学位论文基于语义相似度的中文文奉相似度算法研究
ChineseText
SimilarityAlgorithmResearch
BasedOnSemanticSimilarity
ABSTRACTInChineseinformationprocessing,textsimilaritycomputationiswidelyusedin
theareaofinformationretrieval,machinetranslation,automaticquestion—answering,
textmining
andetc.Itisaveryessentialandimportantissuethat
peoplestudyasa
hotspotanddifficultyforalongtime.Currently,mosttextsimilarity
algorithmsare
basedonvector
space
model(VSM).However,thesemethods
will
causeproblems
of
highdimensionandsparseness.Moreover,thesemethodsdonoteffectivelysolvenaturallanguage
problemsexistedintextdata.Thesenatural
language
problemsare
synonymandpolyseme.Theseproblemssidturbtheefficiencyandaccuracyoftextsimilarityalgorithmsandmakethe
performance
of
textsimilarity
computation
decline.Thispaperusesanewthoughtwhichgets
semantic
simiralitycomputationinto
traditionaltextsimilaritycomputationto
prove
theperformanceoftext
similarity
algorithms.Thispaperdeeplydiscussestheexistingtextsimilarity
algorithmsand
samentictextcomputation
and
givesa
Chinesetextsimilarityalgorithmwhichis
basedonsemanticsimilarity.Thereisanonlineinformationmanagement
system
whichisusedto
manage
students’graduatedesignpapers.Thosepapers
ale
usedto
calculatesimilaritybythatthealgorithmtovalidatethat
algorithm.Those
testresults
showthatalgorithmCanhavemoreefficiencyandaccuracythantraditionaltext
similarityalgorithms.Theresearchanditsresultswillhavevaluablereferenceand
goodapplicableprospecttomany
domainsinChinese
information
processing.
KEYWORDS:Textsimilarity;Semanticsimilarity;Wordsegmentation;PHP
n浙江工业大学学位论文原创性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的研究成果。除文中已经加以标注引用的内容外,本论文不包含其他个人或集体已经发表或撰写过的研究成果,也不含为获得浙江工业大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。
作者签名:詹昂勃日期:扣7年fa月以日
学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权浙江工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于l、保密口,在年解密后适用本授权书。2、不保密眦
(请在以上相应方框内打“√’’)
作者签名:导师签名:日期:岬年似月谬日
日期:j口-7年12月2严日浙江工业大学硕二L学位论文基于语义相似度的中文文奉栩似度算法研究1绪论随着计算机的广泛应用和Intemet的普及,各类信息都在急速地膨胀。信息量的增长给人们带来了方便,同时也带来了信息过量的问题。面对海量信息,人们越来越希望能够在数据分析的基础上进行科学研究、商业决策和企业管理,带来经济效益或社会效益。在现实世界中,文本是最重要的信息载体。因此对文本文档的处理和分析成为当今数据挖掘和信息检索技术的热点之一。处理和研究文本文档的技术有很多,其中重要的一个技术就是文本相似度,在文本聚类、Web智能检索、问答系统、网页去重、自然语言处理等很多领域中有着重要的应用,文本相似度的有效算法是这些应用的关键。
1.1论文背景文本相似度有着比较广泛的应用,典型的应用有:(1)信息智能检索:搜索引擎对用户输入关键字的反应是列出所有与该关键字相匹配的网页。这些网页的数量之大,往往要以十万百万来计量,而且对于某一关键字检索出来的网页有可能对应于不同的主题。这些各种主题的网页有些没有相关性,有些内容很相似。这种各类主题杂乱在一起的搜索结果和冗余页面给用户找到自己感兴趣的信息带来极大的不便。如果利用文本相似度技术,对搜索结果进行进一步的处理,在搜索结果中将相似度很高的信息分为不同类别,或者去掉相似度很高的重复的信息,为用户提供一个清晰的导航。这将大大的有利于用户发现自己感兴趣的信息,提高信息检索的质量。(2)自动问答系统:在这种系统中,问题是多种多样,且非常巨大的,有些问题是非常相似的,如果用人工来回答,将耗费大量的时间和人力,如果在这种系统中应用文本相似度技术,将相似度很高的问题归为一类,使系统对这类问题自动做出答复,将节省大量的时间。(3)文本查重:在某些领域,考虑到隐私性和独创性,要求文本不能出现重复,那么应用文本相似度技术,对这类文本进行相似度的计算,查出相似度很高的文本。因此,研究文本相似度的算法具有重要的实际价值。在研究中文文本的相似度中,中文文本相似度的研究要比英文文本相似度研究更加困难,中文和英文存在很大的区别:(1)英文中的单词是用空格分隔开的,而中文中的词是连续的,没有空格分开,因此对文本进行分词时,英文分词比较简单,而中文分词比较复杂,需要精确的分词技术。(2)英文的词比较中文起来形态比较丰富,因为一个英文单词可以有很多的时态,但是中文中的词基本上没