当前位置:文档之家› 词语相似度计算研究

词语相似度计算研究

— 105 —
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
! 信息系统 #
ITA
语方面 , 有 《知网 》 ( HowNet) [12 ] 、《同义词词林 》[13 ] 、 《中文概念词典 》 (CCD ) [5 ]等 。
FrameNet[10, 1提 出的框架语义学 ( Frame Semantics) 理论 。该理论的核心 思想是人们对词义的理解需要建立在对认知域 , 也就是框 架 ( Frame) 的理解的基础上 。因此 , 框架是组织词汇语 义知识的基 本 手 段 , 一 个 框 架 中 包 含 了 若 干 框 架 元 素 ( Frame Element) 。
Keywords: word sim ilarity; semantic lexicon; corpus
词语相似度计算研究的是用什么样的方法来计算或比 较两个词语的相似性 。词语相似度计算在自然语言处理 、 智能检索 、文本聚类 、文本分类 、自动应答 、词义排歧和 机器翻译等领域都有广泛的应用 , 它是一个基础研究课 题 , 正在为越来越多的研究人员所关注 [124 ] 。笔者对词语 相似度计算的应用背景 、研究成果进行了归纳和总结 , 包 括每种策略的基本思想 、依赖的工具和主要的方法等 , 以 供自然语言处理 、智能检索 、文本聚类 、文本分类 、数据 挖掘 、信息提取 、自动应答 、词义排歧和机器翻译等领域 的研究人员参考和应用 。
2) 利用大规模的语料库进行统计 , 这种基于统计的 方法主要将上下文信息的概率分布作为词汇语义相似度的 参照依据 [728 ] 。 211 基于语义词典的词语相似度计算 21111 基于语义词典的词语相似度计算的基本思想 基于 语义词典的词语相似度计算方法是一种基于语言学和人工 智能的理性主义方法 , 它利用语义词典 , 依据概念之间的 上下位关系和同义关系 , 通过计算两个概念在树状概念层 次体系中的距离来得到词语间的相似度 。基于概念词典的 方法建立在两个词汇具有一定的语义相关性 , 当且仅当它 们在概念间的结构层次网络图中存在一条通路这样的假设 的基础上 。这种方法直观 、简单有效且易于理解 , 但是它 依赖于比较完备的按照概念间结构层次关系组织的大型语 义词典 , 受人的主观影响比较大 , 有时不能反映客观现实 。 21112 常用的语义词典 大规模的语义计算资源是基于 词典的词语相似度计算方法的基础 , 在英文方面 , 具有代 表性的有 W ordN et[9 ] , Fram eN et[10 ] , M indN et[11 ]等 ; 在汉
WordNet是一个联机英语词汇检索系统 [14 ] , 由 Prince2 ton大学研制 。它作为语言学本体库 , 同时又是一部语义词 典 , 在自然语言处理研究方面应用很广 。它采用语义网络 作为其词汇本体的基本表示形式 。在 WordNet中 , 网络节 点由字形 ( Wordform ) 标识 , 分为名词 、动词 、形容词 、 副词和 功 能 词 等 5 种 。节 点 之 间 的 关 系 分 为 同 义 关 系 ( Synonymy) 、反义关系 (Antonymy) 、继承关系 ( Hypony2 my) 、部分 /整体关系 (Meronymy) 、形态关系 (Morpholog2 ical relation) 等 。WordNet提供了很好的概念层次结构 。
关键词 : 词语相似度 ; 语义词典 ; 语料库
Abstract: Word sim ilarity measurement is a basic research top ic in the fields of nature language p rocessing, intelligent retrieval, document clustering, document classification, automatic question answer, word sense disam2 biguation, machine translation, etc. This paper firstly discusses the background of the app lication of word sim ilari2 ty measurement, then two strategies of word sim ilarity measurement are summarized, including their ideas, tools and main methods. Finally, the two strategies are compared.
·情报理论与实践 ·
2 词语相似度计算方法
国内外对 词 语 相 似 度 计 算 的 研 究 策 略 大 体 可 分 为 两类 :
1) 根据某种世界知识 (如 Ontology) 来计算 [526 ] , 主 要是基于按照概念间结构层次关系组织的语义词典的方 法 , 根据在这类语言学资源中概念之间的上下位关系和同 位关系来计算词语的相似度 。
M indNet[11, 16 ]与其他语义知识工程最大的不同在于它 的构建方式 。M indNet是利用微软功能强大的句法分析器 ( Parser) 自 动 分 析 词 典 释 义 (Definition) 文 本 得 到 的 。 M indNet中预设了 24 种关系 , 句法分析器对词典中的释义 文本 进 行 分 析 , 即 可 得 到 词 语 之 间 的 各 种 语 义 关 系 , M indNet的自动抽取的词语语义关系效果比较好 。
在汉语词语相似度计算研究方面 , 王斌采用树形图中 节点之间路径的方法 [23 ] , 利用 《同义词词林 》来计算汉语 词语之间的相似度 。刘群等人提出一种基于 《知网 》的词 汇语义相似度计算方法 [6 ] 。该方法在计算两个概念的语义 表达式之间的相似度时 , 采用了 “整体的相似度等于部分 相似度加权平均 ”的做法 。对于两个义原的相似度 , 采用 根据上下位关系得到语义距离并进行转换的方法 。L. Su2 jian等人提出了一种综合利用了 《知网 》和 《同义词词 林 》来计算汉语词语语义相似度的方法 [24 ] 。在义原相似度 的计算过程中 , 不仅考虑了义原之间的上下文关系 , 还考 虑了义原之间的其他关系 。在计算词语相似度时 , 加权合 并了 《同义词词林 》的词义相似度 、《知网 》语义表达式 的义原相似度和义原关联度 。在这种算法中 , 《同义词词 林 》和 《知网 》采用了完全不同的语义体系和表达方式 , 词表也相差较大 , 把它们合并计算的合理性值得怀疑 。
Agirre和 R igau在利用 WordNet计算英文词语的语义 相似度时 , 除了节点间的路径长度外 , 还考虑到了其他一 些因素 , 例如 , 概念层次树的深度 , 概念层次树的区域密 度等 [22 ] 。由于 WordNet中概念描述的粗细程度不均匀 , 有些区域概念的描述极其详尽 , 而有些区域的概念描述又 比较粗疏 , 所以加入了概念层次树区域密度对语义距离的 影响 。
《同义词词林 》[13 ]收录词语近 7万 , 全部按意义进行 编排 , 是一部义类词典 。它分类采用层级体系 , 把词语分 为 12个大类 , 大类下有中类 , 中类下有小类 , 共 94个中 类 , 1 428个小类 , 小类下再划分词群 。《知网 》是在 因 特网上发布的一个汉英双语资源 , 它着力描述了概念与概 念之间以及概念所有的特性之间的关系 , 这些关系都隐含 在 《知网 》知识词典和义原的特征文件中 [17218 ] 。义原在 《知网 》中是个重要的概念 , 它是从所有汉语词中提炼出 可以用来描述其他词汇的不可再分的基本元素 。 21113 基于语义词典的词语相似度计算方法 大规模语 义词典一般都是将所有的词组织在一棵或几棵树状的层次 结构中 。在一棵树形图中 , 任何两个节点之间有且只有一 条路径 。在计算词语的相似度的时候 , 这条路径的长度就 可以作为这两个概念的语义距离的一种度量 。
ITA
! 信息系统 #
●秦春秀 , 赵捧未 , 刘怀亮 (西安电子科技大学 经济管理学院 , 陕西 西安 710071)
词语相似度计算研究
摘 要 : 词语相似度计算是自然语言处理 、智能检索 、文档聚类 、文档分类 、自动应答 、词义排歧和 机器翻译等很多领域的基础研究课题 。本文首先讨论了词语相似度计算的应用背景 , 然后总结了词语相似 度计算的两类策略 , 包括每类策略的思想 、依赖的工具和主要的方法 , 并对这两类策略进行了简单的 比较 。
另外 , 有的研究者采用向量空间理论基于语义词典对 词语的相似度进行定量研究 。最近 , 荀恩东等人提出一种 基于 WordNet的计算英文词语相似度的实现方法 [25 ] , 从 W o rdN e t中提取同义词并采取向量空间方法计算英语词语 的相似度 , 他们构建的向量包括 WordNet的同义词词集 ( Synset) , 类属信息 (Class) 和意义解释 ( Sense Exp lana2 tion) 三方面 , 该方法是一个可行的方法 , 但其性能尚待 进一步验证 。 212 基于统计的词语相似度计算 21211 基于统计的词语相似度计算的基本思想 基于统 计的词语语义相似度计算方法是一种经验主义方法 , 它把 词语相似度的研究建立在可观察的语言事实上 , 而不仅仅 依赖于语言学家的直觉 。它是建立在两个词语语义相似当 且仅当它们处于相似的上下文环境中这一假设的基础上 。 它利用大规模语料库 , 将词语的上下文信息作为语义相似 度计算的参照依据 [9 ] 。基于统计的定量分析方法能够对 词汇间的语义相似性进行比较精确和有效的度量 , 但这种
— 106 —
R. Rada和 J. H. Lee等人就是通过计算在 WordNet 中词节点之间上下位关系构成的最短路径来计算英文词语 之间的相似 度 的 [19220 ] 。有 些 研 究 者 考 虑 的 情 况 更 复 杂 。 P. Resnik 根据两个词的公共祖先节点的最大信息量来衡 量两个英文词语的语义相似度 [21 ] 。
相关主题