当前位置:文档之家› 中文词语语义相似度计算_基于_知网_2000

中文词语语义相似度计算_基于_知网_2000


中图分类号: T P391
文献标识码 : A
An New Approach Measuring Semantic Similarity in Hownet 2000
LI Fen g , LI Fan g
( Department of Co mputer Science and T echno log y, Shang hai Jiao T o ng universit y, Shanghai 200240, China)
《知网》作者认为义原是比词语更小一级的语义
2 《知网》2000 介绍
单位, 但我们更倾向于这样的理解: 这 1 600 多个义 原是中文语言的一个核心词语集合, 和词语是同一
《知网》[ 3] 是我国著名机器翻译专家董振东先生 逾十年功夫创建的一个知识系统。它含有丰富的词 汇语义知识和世界知识, 内部结构复杂。我们主要 从语义词典和世界知识库两个角度对《知网》进行理 解分析。
文通 过引入事物信息量的思想, 提出了自己的观点: 认为知网中的/ 义原0 对/ 概念0 描述的 作用大小 取决于其本 身
所含 的语义信息量;/ 义原0 对/ 概念0 的描述划分为直接描述和间接描述两类 , 并据 此计算中文 词语语义 相似度, 在
一定程度上得到了和人的直观更加符合的结果。
关键词: 计算机应用; 中文信息处理; 词语语义相似度; 知网;/ 义原0; 语义信息量
态角色和属性0 类义原)
%
颜色
DEF= attr ibute| 属性, color | 颜色, & physical| 物质
&

DEF= mater ial| 材料, ? clo thing | 衣物
?
DEF= Inst itutePlace | 场所,
医院 @ cure | 医 治, # disease| 疾 @源自病, medical| 医
/ 锻炼0和/ 体育0就是两个义原。《知网》作者总 共定义了 1 600 多个这样 的义原 ) 汉语中/ 最基本 的、不易于再分割的意义的最小单位0, 然后用它们 来对 3 万多个中文词语进行解释描述。义原的具体
-entity| 实体 @ thing| 万物 [ # time| 时间, # sp ace| 空间] , @ phys ical| 物质 [ ! appearance| 外观]
李 峰, 李 芳
( 上海交通大学 计算机科学 与工程系, 上海 200240)
摘 要: 词语语义相似度的计算, 一种比较常用的方法是 使用分类 体系的语 义词典 ( 如 Wo rdnet) 。本文 首先利 用
Ho wnet 中/ 义原0 的树状层次结构, 得到/ 义原0 的相似度, 再通过/ 义原0的相似度得 到词语(/ 概 念0) 的相似 度。本
a Event| 事件 813 b entity| 实体 142 c attr ibute| 属性 / aV alue| 属性 值 433 d quant ity| 数量 / qVa lue| 数量值 13 e Seco ndar yFeatur e| 次要特征 100 f syntax | 语法 41 g Ev entR ole & Features| 动态角色和属性 74
不含有直 接语义 信息或 含较 少语 义信 息的词 类。 / 次要特征0 义原, 专门规 定, 用来描述 事物类概念 ( 名词类) 的次要特征。/ 动态角色和属性0义原, 专 门规定, 描述事件类概念( 动词类) 的内容和特征。
第二, 词语不是组织在一个树状的层次体系中, 而是存在一种网状关系[ 4] 。
首先, 用来描述词语的义原之间存在多种关系。 我们认为在《知网》2000 中, 义原之间的 主要关系 有: 上下位关系; 属性关系, 指/ 实体0 类义原( 置于 [ ] 中, 见图 1) 和/ 事件类义原0的共性( 置于{ } 中) ; 对义关系和反义关系。其中最基本的仍然是树状层 次体系中的上下位关系( 见图 1)
Abstract: A basic approach for measur ing semant ic simila rity / distance betw een w or ds and concept s is to use lex ical taxo no my, such as Wo rdnet. H ow net is a Chinese semant ic dictio nar y, co ntaining abundant semantic info rmation and ontolog y know ledge, but has quite different co nstr uct ion and architecture. In t his paper, we present a new a ppro ach using H ow net by dr awing in the idea o f infor mation theor y. We pr opose that the mo re semantic info rmation a / sememe0 take, the mo re po wer ful it in describing co ncepts. T hen w e divide / sememe0 which describes a co ncept into tw o set: dir ect ly descr ibing part and indir ectly descr ibing part. In the ex per iment s, w e demonstrate our method hav e improv ed perfo rmance in measuring semantic similar ity betw een Chinese w or ds. Key words: co mputer applicatio n; Chinese infor mation pr ocessing ; semantic similarity; H ow net ; / sememe0 ; semantic info rmat ion
但中文词语的相 似度计算并不 能直接借用国 外研究人员在 Wordnet 中的 方法。原因在于知网
并没有像 Wordnet 一样将所 有的词组织在 一个分 类的层次体系中 ( 树 状结 构中) , 而 是精 心选取 了 一个/ 语义 单位0 ) ) ) / 义原0 的集 合, 然后 用这 个 集合中的 元素来 描述 中文 词语/ 概 念。/ 义原0 被 组织在几颗 层次 树中, 可 以借用 在 Wordnet 的 分 类体系中计 算词语 相似度 的思想。如 何通 过/ 义 原0的相 似度来 得到词 语/ 概念 的相 似度, 成为 利 用知网计算中文词语相似度的关键 所在。我们在
3期
李峰等: 中文词语语义相似 度计算- 基于《知网》2000
101
界知 识0 。
表 1 知网的主要标识符及其代表关系
词语
定义
标识符 代表关系
鼾声
DEF = sound | 声, # sleep |睡
#
踝骨
DEF = part | 部 件, % A n-i malH uman| 动物, bone| 骨
100
中文信息学报
2007 年
接描述和间接描述两个部分。
分类如下( 数字标号为义原个数) :
接下来的第 2 部分, 我们将首先从两个角度来 简要地介绍《知网》; 第 3 部分给出《知网》中词语相 似度的计算归结为/ 概念0相似度的计算; 第 4 部分 讨论/ 概念0的相似度如何由描述它的/ 义原0的相似 度得到; 第 5 部分给出我们计算/ 义原0之间相似度 所采用的公式。第 6 部分为我 们的实验结果 和分 析。最后第 7 部分是我们的结论。
2. 1 《知网》是一部语义词典
级的语义层次。《知网》用这个核心集合构成的语义 内涵( 语义特征) 去描述所有中文词语。因此, 我们 认为义原分类隐含 着如下的语法 结构: / 实体0 义 原, 描述万物, 名词的核心集合; / 事件0义原, 描述动 作, 动词的核心集合; / 属性0/ / 属 性值0 义原和/ 数 量0/ / 数量值0义原, 描述属性( 属性程度) , 形容词副 词的核心集合; / 语法0义原, 对应助词、代词、介词等
, , @ animate| 生物 [ * alive| 活着, ! age| 年龄, * die| 死, * metaboliz e| 代谢] , , , @ AnimalH uman| 动物 [! sex| 性别, * AlterLocation| 变空间位置, * StateM en tal| 精神状态] , , , , @ hum an| 人 [ ! name| 姓名, ! w isdom| 智慧, ! ability| 能力, ! occupation | 职位, * act| 行动] , , , , , 8 humaniz ed| 拟人 [ fake| 伪]
《知网》的 基本形式是对中 文词语的释义 和描 述。与一般的语义词典如 Wordnet 不同的地 方有 两点:
第一, 词语( 概念) 的意义不是通过一些其他的 常用词语来解释、说明, 而是通过 / 义原0来描述、定 义。比如/ 打0 ( 打篮球, 打太极) , 这个词有一 项描 述是:
DEF = exer cise| 锻炼, spo rt| 体 育
这篇论文里提出/ 义原0本身所含 信息量具有大小 之分, 而它所含有的语义信息量决定着它对概念 的描述作用( 区分此概念和其他概念) 。另外, 在 / 义原0对概念 的描述 方式 上, 我们 也提 出了自 己 的观点: 认为描述/ 定义一个概念的/ 义原0分为直
收稿日期: 2006- 06- 03 定稿日期: 2006- 12- 13 作者简介: 李峰( 1983 ) ) , 男, 硕士, 主要研究方向为自然语言处理。
相关主题