当前位置:
文档之家› 基于本体的语义相似度计算方法研究综述
基于本体的语义相似度计算方法研究综述
form ation Con ten tM easu res)、基于属性的语 义相似度计
算 ( Featu re- b ased M easu res ) 和混 合式 语 义相 似 度计
算 ( H yb rid M easu res)。在不作 具体 说明 情况 下, 本文
介绍的 4 类算法都是建 立在 / IS- A 0关系 树状分类体
2. 1 基于本体的语义相似度计算内涵
( 1 )语义相似度与语义距离
语义相似度和 语义距离之间存 在着密切的关
系 [ 3] : 两个词语的语义距离越大, 其相 似度越低; 反之, 两个词语的 语义距 离越 小, 其相 似度越 大。对于 两个
词语 w1 和 w2, 记 S mi ( w1, w2 ) 为其 相 似 度, D is ( w1, w2 )为词语语义距离, 则 S mi ( w1, w2 )和 D is( w1, w2 )存 在下列对 应关 系: D is( w1, w2 )和 S mi ( w1, w2 )成 反向 关系, 即 D is( w1, w2 ) 越大, 则 S mi ( w1, w2 ) 越小:
关键词: 相似度 AND 关键词: 本体 关键词: 语义相似 AND 关键词: 本体 关键词: 相似度 AND 关键词: 本体 关键词: 语义相似 AND 关键词: 本体
数据库
ISIW eb o f Sc ience
CNK I 万方
结果 (篇数 )
2 10
5 46 73 56 1 25 59
2 基于本体的语义相似度计算内涵和影响 因素
cock and Chodorow法等。
Shortest Path 法 [8] 认为概 念词间 的相 似度与 其在
本体分类体系树中的距离有关。计算公式为:
S im ( c1, c2 ) = 2M AX - L
( 2)
其中, MAX表 示概 念词 c1 和 c2 在分类 体系 中的
最大路径, L 表示概念词 c1 和 c2 间的最短路径。该算
¹ 当 D is( w1, w2 )为 0时, S im ( w1, w2 ) 为 1, 表示两个词 语完 全相似;
º当 D is( w1, w2 ) 为无 穷大时, S im ( w1, w2 ) 为 0, 表示 两个 词语完全不相似或不相关。
两者之间的对应关系可通过下列公式来揭示:
S im (
w1,
1引 言
与前些年的信息资源匮乏相比, 现在信息用户更加关注的是如何从海量的信息资 源中发掘其所 需要的信息。 信息资源异构性的存在, 尤其是语义异构性的存在, 使得采用传统以字符串匹配为基础的 信息检索系 统难以满足 用户对信息和知识的深层次需求, 因此, 加强基于 概念匹 配的信息 检索系 统的研究 就显得 尤为重要。 简而言之, 概念匹配就是计算词语之间的语义相似度 [ 1]。与传统 的以词 形为切入 点、建立 在词语字 面匹配 基础上的 检索算 法相比, 语义相似度计算是对源和目标词语间在概念层面上相似程度的度量, 需要考虑词 语所在的语 境和语义等 信息。本体 [ 2]因其能够准确描述概念含义和概念之间的内在关联, 已成为词语语义相似度研究的基础。
下位关系和同位关系来计算词语的相 似度。该算法依
赖于如下的假设: 两个词语具有一定的 语义相关性, 当
且仅当其在概念结构层次网络图中存 在一条通路。基
于公式 ( 1 ) , 设 C 是本 体中 的概 念词 集合, 词 语 w1 和 w2 在某种映射算 法或 映射 规则 下被 映射 成概 念词 c1 和 c2 ( c1, c2 I C) , 那么, 词语 w1 和 w2 之间 的语义相似 度计算就可以转换成概念词 c1 和 c2 间的相似度计算,
Path法进行了扩 展, 考虑 到概 念词在 本体层 次树 中的
位置信息 ( 所在 深度 和所 处区 域的 密度 ) 和 边所 表征
的关联强度, 通过将组成 c1 和 c2 连通路径的各个边的 权值相加, 而不是简单统计两个概念词 间边的数量, 来
计算两个概念词的距离。Fra bibliotekW u and Palmer法 [ 10] , 与 Shortest Path法和 W eighted
( 1)被 比较 概念 词在 本体 层次 树 中所 处的 深度。 在本体层次树 中, 概念 词所 处层次 越高, 越 抽象; 所处 层次越低, 越 具体。高层 次的 概念词 间的语 义相 似度 一般小于低 层次概 念词间 的语 义相似 度。因此, 路径 相 同的两个 节点, 高 层次节点 所表征 的语义距 离要大 于低层次节点所表征的语义距离。
系基础上的。
( 1) 基于距离的语义相似度计算
基于距离的语义相似度计算的基本思 想是通过两
个概念词在本体树状分类体系中的路径长 度量化它们
之间 的 语 义 距 离 [ 7] 。代 表 算 法 有: Shortest Path 法、
W eigh ted L inks法、W u and Palm er法、L i et al法、L ea-
X IANDA I TUSHU Q INGBAO JISHU 51
知识组织与知 识管理
表 1 三个数据库的检索结果
检索策略
主题 = ( O nto logy ) AND 主 题 = ( Sem antic Sim ilarity)
主题 = ( O nto logy ) AND 主 题 = ( Sim ilarity)
( 4)被比较概念 词连通路 径上各 个边在本 体层次 树中的关联 强度。在本 体层 次树中, 一个节 点可 能与 多 个节点相 连接, 但 这些节点 的重要 程度通常 存在差 异, 因此, 相 应的 连 接边 对 语义 相 似度 的 影响 也 必然 不同。
( 5)被比较概念 词连通路 径上各 个边的两 端节点 概念词的属性。本体, 尤其是领域本体, 不 仅会对概念 及 其关系进 行准确 定义, 还会 对概念 的属性进 行详细 描述。如果 某条 边 两端 的 概念 词 所用 的 相同 属 性越
w2 )
=
D
is(
A w1, w2 )
+
A
( 1)
其中, A为调节因子。
( 2 )基于本体的语义相似度计算思想
词语语义距离 的计算方法基本 上可以分为两
类 [ 3] : 基于某种世 界知 识的计 算方 法和基 于大规 模语
料库的统计计算方法。
基于 世界知识 计算方 法的基本 思想是: 按照概念 间结构层次关系组织的语义词典所包含的 概念之间上
( 2)被比较概念 词在本体 层次树 中所处区 域的密 度。在本体层次树中, 局部区域密度越大, 说明该区域 对节点概念 的细化 程度也 越大。因 此, 对组 成被 比较 概 念词连接 路径的 各个边来 说, 其在 本体层次 树中所 处的密度越大, 对应的权重也应该越大。
( 3)被比较概 念词连通 路径上 各个边的 类型。在 本 体中, 不同 的概念 关系所表 征的语 义相似度 是不同 的。例如, / 同 义 关 系 0所 表 征的 语 义 相 似 度 应大 于 / 整体 - 部分关系 0所表征的语义相似度。
基于大 规模语 料进行统 计, 主要 将上下文 信息的 概率分布 作 为词 汇 语义 相 似度 的 参照。 其假 设 前提 是: 两个词汇具有某种程度的语义相似, 当 且仅当它们 出现在相同的上下文中。 2. 2 本体中影响语义相似度计算的主要因素
本体概 念体系 可用层次 树来描 述, 其中节 点表示 本 体中的概 念词; 边 表示本体 中概念 词与概念 词之间 的关系。一般来 讲, 概念 范畴 较广的 概念词 在树 中的 位置一般比较高, 周围节点密度相对较少; 概念范畴较 为 具体的概 念词在 树中的位 置相对 较低, 且周 围节点 密度相对较 大。因此, 树 中概 念词间 语义相 似度 计算 主要受以下因素影响 [ 4- 6]:
总第 188期 2010年 第 1期
知识组织与知识管理
基于本体的语义相似度计算方法研究综述*
孙海霞 1 钱 庆 1 成 颖 2 1 (中国医学科学院医学信息研究所 北京 100020 ) 2 (南京大学信息管理系 南京 210093) =摘要 > 在对基于本体的词语语义相似度进行界定的基础上, 对基于 本体的语 义相似 度研究进 行综述, 分 别阐述 基于距离的语义相似度计算、基于内容的语义相似度计算、基于属性的语义相似度计算和 混合式语义 相似度计算 等算法模型, 最后从宏观层面指出今后本领域的研究方向。 =关键词 > 语义相似度 语义相似度计算 本体 概念匹配 =分类号 > TP391
2 ( D epartm en t of In form ation M anagem ent, N an jing U n iversity, N an jing 210093, Ch in a)
=Abstract> Based on th e general d efin it ion and d issertat ion for seman tic smi ilarity m easuring of On tology, th is paper m akes a review of research on the O n tology- based seman tic s mi ilarity m easu res, in trodu ces edge coun ting m easu res, inform ation conten t m easures, feature- based m easu res and hyb rid measu res resp ectively. A t last, it poin ts ou t th e d irection of fu tu re work from macroscop ic perspective. =K eywo rds> Seman tic smi ilarity S em ant ic s mi ilarity m easu ring On tology Concep t- based m atch ing