当前位置:文档之家› 词语相似度计算方法

词语相似度计算方法

词语相似度计算方法分析崔韬世麦范金桂林理工大学广西 541004摘要:词语相似度计算是自然语言处理、智能检索、文档聚类、文档分类、自动应答、词义排歧和机器翻译等很多领域的基础研究课题。

词语相似度计算在理论研究和实际应用中具有重要意义。

本文对词语相似度进行总结,分别阐述了基于大规模语料库的词语相似度计算方法和基于本体的词语相似度计算方法,重点对后者进行详细分析。

最后对两类方法进行简单对比,指出各自优缺点。

关键词:词语相似度;语料库;本体0 引言词语相似度计算研究的是用什么样的方法来计算或比较两个词语的相似性。

词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用,它是一个基础研究课题,正在为越来越多的研究人员所关注。

笔者对词语相似度计算的应用背景、研究成果进行了归纳和总结,包括每种策略的基本思想、依赖的工具和主要的方法等,以供自然语言处理、智能检索、文本聚类、文本分类、数据挖掘、信息提取、自动应答、词义排歧和机器翻译等领域的研究人员参考和应用。

词语相似度计算的应用主要有以下几点:(1) 在基于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换程度。

(2) 在信息检索中,相似度更多的是反映文本与用户查询在意义上的符合程度。

(3) 在多文档文摘系统中,相似度可以反映出局部主题信息的拟合程度。

(4) 在自动应答系统领域,相似度的计算主要体现在计算用户问句和领域文本内容的相似度上。

(5) 在文本分类研究中,相似度可以反映文本与给定的分类体系中某类别的相关程度。

(6) 相似度计算是文本聚类的基础,通过相似度计算,把文档集合按照文档间的相似度大小分成更小的文本簇。

1 基于语料库的词语相似度计算方法基于统计方法计算词语相似度通常是利用词语的相关性来计算词语的相似度。

其理论假设凡是语义相近的词,它们的上下文也应该相似。

因此统计的方法对于两个词的相似度算建立在计算它们的相关词向量相似度基础上。

首先要选择一组特征词,然后计算这一组特征词与每一个词的相关性(一般用这组词在实际的大规模语料中在该词的上下文中出现的频率来度量),于是,对于每一个词都可以得到一个相关性的特征词向量,然后计算这些向量之间的相似度,一般用向量夹角余弦的计算结果作为这两个词的相似度。

Lee利用相关熵,Brown采用平均互信息来计算词语之间的相似度。

李涓子(1999)利用这种思想来实现语义的自动排歧;鲁松(2001)研究了如何利用词语的相关性来计算词语的相似度。

PBrownetc采用平均互信息来计算词语之间的相似度。

基于统计的定量分析方法能够对词汇间的语义相似性进行比较精确和有效的度量。

基于大规模语料库进行的获取受制于所采用的语料库,难以避免数据稀疏问题,由于汉语的一词多义现象,统计的方法得到的结果中含有的噪声是相当大的,常常会出现明显的错误。

2 基于本体库的词语相似度计算方法2.1 常用本体库关于Ontology的定义有许多,目前获得较多认同的是R.Studer的解释:“Ontology是对概念体系的明确的、形式化的、可共享的规范说明”。

在最简单的情况下,本体只描述概念的分类层次结构;在复杂的情况下,本体可以在概念分类层次的基础上,加入一组合适的关系、公理、规则来表示概念间的其它关系,约束概念的内涵解释。

WordNet是一个联机英语词汇检索系统,由Prince-ton 大学研制。

它作为语言学本体库同时又是一部语义词典,在自然语言处理研究方面应用很广。

它采用语义网络作为其词汇本体的基本表示形式。

在WordNet中,网络节点由字形(Wordform)标识,分为名词、动词、形容词、副词和功能词等5种。

节点之间的关系分为同义关系(Synonymy)、反义关系(Antonymy)、继承关系(Hypony-my)、部分/整体关系(Meronymy)、形态关系(Morpholog-icalrelation)等。

WordNet 提供了很好的概念层次结构。

知网是一个以汉语和英语词语所代表的概念为描述对象、以揭示概念与概念之间以及概念所具有属性之间的关系为基本内容的常识库和知识库。

其中包含丰富的词汇语义知识和本体知识,这些关系都隐含在知网的知识词典和义原的特征文件中。

知网中有以下两个主要的概念:(1) 义项。

它是对词汇语义的一种描述,每一个词可以表达为几个义项。

义项是用一种知识表示语言来描述的,这种知识表示语言所用的词汇叫做义原。

(2) 义原。

它是用于描述一个概念的最小意义单位,从所有词汇中提炼出的可以用来描述其他词汇的不可再分的基本元素。

与一般的语义词典(如同义词、词林或WordNet)不同,知网并不是简单地将所有的概念归结到一个树状的概念层次体系中,而是试图用一系列的义原来对每一个概念进行描述。

知网的汉语知识库中每个词汇由一个四元组表示:<W_X=词语E_X=词语例子G_X=词语词性DEF=概念定义> DEF部分是表示词与义原的关系,也是词汇描述中最重要的部分,可以简单地认为词是由义原通过某种关系构成的。

2.2 相似度计算方法分析根据本体知识来计算。

主要是基于按照概念间结构层次关系组织的语义词典方法,根据概念之间的关系来计算词语的相似度。

这类方法通常依赖于比较完备的大型语义词典,一般词典都是将所有的词组织在一棵或几棵树状的层次结构中,在一棵树型图中,任何两个节点之间有且只有一条路径,这条路径的长度就可以作为这两个概念的语义距离的一种度量。

传统基于本体的概念之间相似度计算模型主要有基于距离的语义相似度计算模型、基内容的语义相似度计算模型和基于属性的语义相似度计算模型3种。

刘群等人利用知网作为语义词典计算汉语词汇的相似度;Rada等人和Lee等人通过计算在WordNet中词节点之间上下位关系构成的最短路径来计算词语之间的相似度。

许多学者考虑到其他因素对语义距离的影响,如Resnik根据两个词的公共祖先节点的最大信息量来衡量两个词的语义相似度;Agirre等人在计算词语的语义相似度时,除了节点间的路径长度外,还考虑到概念层次树的深度和区域密度的影响。

张瑞霞等人提出了一种基于知识图的汉语词汇相似度计算方法,该方法以知识图为知识表示方法,在构造词图的基础上对词汇概念中的义原进行分类,通过计算不同类型义的相似度得到概念的相似度。

3 比较与总结这两种方法各有特点。

基于世界知识的方法简单有效,无需用语料库进行训练,也比较直观,易于理解,但这种方法得到的结果受人的主观意识影响较大,有时并不能准确反映客观事实。

另外,这种方法比较准确地反映了词语之间语义方面的相似性和差异,而对于词语之间的句法和语用特点考虑得比较少。

基于语料库的方法比较客观,综合反映了词语在句法、语义、语用等方面的相似性和差异。

但是,这种方法比较依赖于训练所用的语料库,计算量大,计算方法复杂,另外,受资料稀疏和资料噪声的干扰较大。

参考文献[1]秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].信息系统.2007.[2]余超.基于知网的词汇语义计算研究及应用[D].辽宁:沈阳航空工业学院.2007.[3]刘紫玉,黄磊.基于领域本体模型的概念语义相似度计算研究[J].计算机技术与发展.2010.[4]/.[5]/.[6]孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述[J].知识组织与知识管理.2010.[7]刘群,李素建.基于《知网》的词汇语义相似度计算[J].计算语言学及中文信息处理.2002.[8]Resnik O.Semantic Similarity in a Taxonomy:An Information- Based Measure and Its Application to Problems of Ambiguity and Natural Language[J].Journal of A rtificial Intelligence Research.1999.[下转72页]们虚拟社会的管理创新工作难度陡增,构建虚拟社会治安防控体系任重道远,对付网络恐怖主义还需我们拿出更大的耐力和精神,我们要不断地从多方面积极探索有效防御网络恐怖主义的新方略,积极主动地掌握反网络恐怖主义工作的主动权,有力的打击和压缩网络恐怖主义生存发展的空间,维护好网络治安环境和国家政治稳定。

参考文献[1]孙晓伟.试论公安机关虚拟社会管理机制创新[J].公安研究.2011. [2]冯斌元.公共网络安全视野下的虚拟社会管理研究[J].公安研究.2010.[3]陈忠.论网络恐怖主义对国家安全的危害及其对策[J].江南社会学院学报.2004.[4]温家宝在新加坡出席第八次中日韩领导人会议的讲话.2005.[5]朱永彪,杨恕.网络恐怖主义问题初探[J].中州学刊.2006.[6]张骥,冯冬蕾.网络恐怖主义产生原因、特点及危害性分析[J].聊城大学学报.2005.The mechanism of innovation of Virtual social security Prevention and Control has become the importantVirtual society terrorism The prevention;control of social management[上接56页]n jinWord Similarity computing is basic research of natural language processing, intelligent informationword similarity;corpus;ontology。

相关主题