当前位置：文档之家› 词语相似度计算研究

词语相似度计算研究

— 105 —
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
! 信息系统 #
ITA
语方面 , 有《知网》 ( HowNet) [12 ] 、《同义词词林》[13 ] 、《中文概念词典》 (CCD ) [5 ]等。
FrameNet[10, 1提出的框架语义学 ( Frame Semantics) 理论。该理论的核心思想是人们对词义的理解需要建立在对认知域 , 也就是框架 ( Frame) 的理解的基础上。因此 , 框架是组织词汇语义知识的基本手段 , 一个框架中包含了若干框架元素 ( Frame Element) 。
Keywords: word sim ilarity; semantic lexicon; corpus
词语相似度计算研究的是用什么样的方法来计算或比较两个词语的相似性。词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用 , 它是一个基础研究课题 , 正在为越来越多的研究人员所关注 [124 ] 。笔者对词语相似度计算的应用背景、研究成果进行了归纳和总结 , 包括每种策略的基本思想、依赖的工具和主要的方法等 , 以供自然语言处理、智能检索、文本聚类、文本分类、数据挖掘、信息提取、自动应答、词义排歧和机器翻译等领域的研究人员参考和应用。
2) 利用大规模的语料库进行统计 , 这种基于统计的方法主要将上下文信息的概率分布作为词汇语义相似度的参照依据 [728 ] 。 211 基于语义词典的词语相似度计算 21111 基于语义词典的词语相似度计算的基本思想基于语义词典的词语相似度计算方法是一种基于语言学和人工智能的理性主义方法 , 它利用语义词典 , 依据概念之间的上下位关系和同义关系 , 通过计算两个概念在树状概念层次体系中的距离来得到词语间的相似度。基于概念词典的方法建立在两个词汇具有一定的语义相关性 , 当且仅当它们在概念间的结构层次网络图中存在一条通路这样的假设的基础上。这种方法直观、简单有效且易于理解 , 但是它依赖于比较完备的按照概念间结构层次关系组织的大型语义词典 , 受人的主观影响比较大 , 有时不能反映客观现实。 21112 常用的语义词典大规模的语义计算资源是基于词典的词语相似度计算方法的基础 , 在英文方面 , 具有代表性的有 W ordN et[9 ] , Fram eN et[10 ] , M indN et[11 ]等 ; 在汉
WordNet是一个联机英语词汇检索系统 [14 ] , 由 Prince2 ton大学研制。它作为语言学本体库 , 同时又是一部语义词典 , 在自然语言处理研究方面应用很广。它采用语义网络作为其词汇本体的基本表示形式。在 WordNet中 , 网络节点由字形 ( Wordform ) 标识 , 分为名词、动词、形容词、副词和功能词等 5 种。节点之间的关系分为同义关系 ( Synonymy) 、反义关系 (Antonymy) 、继承关系 ( Hypony2 my) 、部分 /整体关系 (Meronymy) 、形态关系 (Morpholog2 ical relation) 等。WordNet提供了很好的概念层次结构。
关键词 : 词语相似度 ; 语义词典 ; 语料库
Abstract: Word sim ilarity measurement is a basic research top ic in the fields of nature language p rocessing, intelligent retrieval, document clustering, document classification, automatic question answer, word sense disam2 biguation, machine translation, etc. This paper firstly discusses the background of the app lication of word sim ilari2 ty measurement, then two strategies of word sim ilarity measurement are summarized, including their ideas, tools and main methods. Finally, the two strategies are compared.
·情报理论与实践 ·
2 词语相似度计算方法
国内外对词语相似度计算的研究策略大体可分为两类 :
1) 根据某种世界知识 (如 Ontology) 来计算 [526 ] , 主要是基于按照概念间结构层次关系组织的语义词典的方法 , 根据在这类语言学资源中概念之间的上下位关系和同位关系来计算词语的相似度。
M indNet[11, 16 ]与其他语义知识工程最大的不同在于它的构建方式。M indNet是利用微软功能强大的句法分析器 ( Parser) 自动分析词典释义 (Definition) 文本得到的。 M indNet中预设了 24 种关系 , 句法分析器对词典中的释义文本进行分析 , 即可得到词语之间的各种语义关系 , M indNet的自动抽取的词语语义关系效果比较好。
在汉语词语相似度计算研究方面 , 王斌采用树形图中节点之间路径的方法 [23 ] , 利用《同义词词林》来计算汉语词语之间的相似度。刘群等人提出一种基于《知网》的词汇语义相似度计算方法 [6 ] 。该方法在计算两个概念的语义表达式之间的相似度时 , 采用了 “整体的相似度等于部分相似度加权平均 ”的做法。对于两个义原的相似度 , 采用根据上下位关系得到语义距离并进行转换的方法。L. Su2 jian等人提出了一种综合利用了《知网》和《同义词词林》来计算汉语词语语义相似度的方法 [24 ] 。在义原相似度的计算过程中 , 不仅考虑了义原之间的上下文关系 , 还考虑了义原之间的其他关系。在计算词语相似度时 , 加权合并了《同义词词林》的词义相似度、《知网》语义表达式的义原相似度和义原关联度。在这种算法中 , 《同义词词林》和《知网》采用了完全不同的语义体系和表达方式 , 词表也相差较大 , 把它们合并计算的合理性值得怀疑。
Agirre和 R igau在利用 WordNet计算英文词语的语义相似度时 , 除了节点间的路径长度外 , 还考虑到了其他一些因素 , 例如 , 概念层次树的深度 , 概念层次树的区域密度等 [22 ] 。由于 WordNet中概念描述的粗细程度不均匀 , 有些区域概念的描述极其详尽 , 而有些区域的概念描述又比较粗疏 , 所以加入了概念层次树区域密度对语义距离的影响。
《同义词词林》[13 ]收录词语近 7万 , 全部按意义进行编排 , 是一部义类词典。它分类采用层级体系 , 把词语分为 12个大类 , 大类下有中类 , 中类下有小类 , 共 94个中类 , 1 428个小类 , 小类下再划分词群。《知网》是在因特网上发布的一个汉英双语资源 , 它着力描述了概念与概念之间以及概念所有的特性之间的关系 , 这些关系都隐含在《知网》知识词典和义原的特征文件中 [17218 ] 。义原在《知网》中是个重要的概念 , 它是从所有汉语词中提炼出可以用来描述其他词汇的不可再分的基本元素。 21113 基于语义词典的词语相似度计算方法大规模语义词典一般都是将所有的词组织在一棵或几棵树状的层次结构中。在一棵树形图中 , 任何两个节点之间有且只有一条路径。在计算词语的相似度的时候 , 这条路径的长度就可以作为这两个概念的语义距离的一种度量。
ITA
! 信息系统 #
●秦春秀 , 赵捧未 , 刘怀亮 (西安电子科技大学经济管理学院 , 陕西西安 710071)
词语相似度计算研究
摘要 : 词语相似度计算是自然语言处理、智能检索、文档聚类、文档分类、自动应答、词义排歧和机器翻译等很多领域的基础研究课题。本文首先讨论了词语相似度计算的应用背景 , 然后总结了词语相似度计算的两类策略 , 包括每类策略的思想、依赖的工具和主要的方法 , 并对这两类策略进行了简单的比较。
另外 , 有的研究者采用向量空间理论基于语义词典对词语的相似度进行定量研究。最近 , 荀恩东等人提出一种基于 WordNet的计算英文词语相似度的实现方法 [25 ] , 从 W o rdN e t中提取同义词并采取向量空间方法计算英语词语的相似度 , 他们构建的向量包括 WordNet的同义词词集 ( Synset) , 类属信息 (Class) 和意义解释 ( Sense Exp lana2 tion) 三方面 , 该方法是一个可行的方法 , 但其性能尚待进一步验证。 212 基于统计的词语相似度计算 21211 基于统计的词语相似度计算的基本思想基于统计的词语语义相似度计算方法是一种经验主义方法 , 它把词语相似度的研究建立在可观察的语言事实上 , 而不仅仅依赖于语言学家的直觉。它是建立在两个词语语义相似当且仅当它们处于相似的上下文环境中这一假设的基础上。它利用大规模语料库 , 将词语的上下文信息作为语义相似度计算的参照依据 [9 ] 。基于统计的定量分析方法能够对词汇间的语义相似性进行比较精确和有效的度量 , 但这种
— 106 —
R. Rada和 J. H. Lee等人就是通过计算在 WordNet 中词节点之间上下位关系构成的最短路径来计算英文词语之间的相似度的 [19220 ] 。有些研究者考虑的情况更复杂。 P. Resnik 根据两个词的公共祖先节点的最大信息量来衡量两个英文词语的语义相似度 [21 ] 。

e商务文档

词语相似度计算研究

相关文档推荐：