当前位置:
文档之家› 结合语义相似度与相关度的概念扩展
结合语义相似度与相关度的概念扩展
9:0’,)$’
!K JBGHK@I? TBA BKUIC<KGBK@ AHJBP <K <K@<=<RN, CBJBHC?L <K BUH=OH@IKR CB=H@I<K <V ?<K?BW@J IK@BRCH@BP @<
IGW=BGBK@H@I<K <V ?<K?BW@OH= BXWHKJI<K HKP CB@CIBUH= IJ GHPB > !K @LB WHWBC,@LB GB@L<P V<C ?H=?O=H@IKR JBGHK@I? JIGI=HCI@N HKP CB=H@IUI@N AN OJB <V @HX<K<GN HKP BK@HI=GBK@ CB=H@I<KJ <V <K@<=<RN IJ WC<W<JBP VICJ@=N > 3OC@LBCG<CB,AN IK@BRCH@IKR JIGI=HCI@N YI@L CB=H@IUI@N,JBGHK@I? BXWHKPIKR IJ BUH=OH@BP,YLI?L IJ OJBP HJ H ?CI@BCI<K V<C ?<K?BW@OH= BXWHKPIKR > 3IKH==N,@LB J?LBGB IJ WC<UBP CBHJ<KHA=B HKP UH=IP AN ?<K?CB@B @BJ@J HKP HKH=NJIJ > JBGHK@I? JIGI=HCI@N,JBGHK@I? CB=H@IUI@N,?<K?BW@OH= BXWHKPIKR
[ $] 成语义丰富的扩展概念集, 再提交检索 。
;%4<",10
$
引
言
语义 网 环 境 下 的 概 念 扩 展, 核心任务是一系列 语义推理— — —同义扩展、 语义蕴涵、 外延扩展及语义 相关联想。在完 备 推 理 机 制 的 支 持 下, 推理不难实 现。但我们也发 现, 多个环节的推理任务在实现过 程中易产生混乱, 由于缺乏统一的可量化指标, 难以 形成相关程度由 高 到 低 的 有 序 队 列, 由此生成的扩 展词条简单堆砌, 不能完整真实地反映领域知识中 的关联特点。因此, 对基于领域本体的概念检索, 在 采用推理技术的 同 时, 我们考虑引入一个统一的量 化标准度量概念的关联程度, 控制调整扩展概念集, 以期获得更实用 灵 活 的 概 念 扩 展 模 型, 更好地实现 针对领域知识的检索。
( !" , $#% "&’ !# )-
$)
&-B
&
其中, ) & 是 ! " 到 ! # 的最短路径上第 & 条边的权值, 这里 ) & - B 。 进一步指出, 语义相似度还将受到 概念 文献 [F] 节点 “深度” 的影响, 即相同的路径长度, 层次树中离 根节点近的概念间的相似度比离根节点远的概念间
万 方数据 — +), —
结合语义相似度与相关度的概念扩展
意义上的符合程 度, 涉及语义相似度和相关度两个
!
基于语义推理的概念扩展
概念。语义相似度指概念词汇的可替换度和词义的 符合程度, 如 “医生 3 大夫” 。而语义 相关 度则指 语义 , 其 相 似 度 很 小, 相关 间的关联度。如“医 生 3 病 患” 度却很大。通常情况下, 相似度高的两个概念, 相关 度也高, 因此往往 也 通 过 概 念 间 的 相 似 性 解 决 概 念
关键词
语义相似度
语义相关度
概念扩展
!"#$%&’()* +%’,-%.)* /)0%1 "# 2%3)#’-$ 2-3-*),-’4 5#’%6,)’%1 7-’8 2%3)#’-$ +%*)’-.-’4
#IB 5OI$ HKP 2<KR SLH<LOI)
( $ Q !"#$%&’"(& > )* +(*)%’$&,)( -$($."’"(& ,/0( 1$&F /"( 2(,3"%4,&5 ,60$(.78)0 , ($%)+( ; ) Q 9,(.($( :);;"." ,/0( 1$&F /"( 2(,3"%4,&5 ,60$(.78)0 ,($%)+()
[C, D, E] 间的相 关 性 问 题 。本文的应用背 景 是 概 念 检
不同于 简 单 的 术 语 本 体 (如 "#$%&’( ) ,本 文 探 讨的语义网构建在复杂的、 公理化的领域本体上, 在 描述逻辑推理机 制 的 支 持 下, 采用推理技术实现概 念扩展。描述逻 辑 上 的 推 理 基 于 知 识 库 )* ( +,, ) 〈 +*#.,,*#.〉 。+*#. 引入 领 域 概 念, 是 描 述 概 念、 概念间的关系、 关系间关系的公理集 合
情 报 学 报
!""# $%%% & %$’( 第 )* 卷 第 ( 期 +), & +’) , )%%+ 年 $% 月
-./0#12 .3 456 75!#1 ".7!648 3.0 "7!6#4!3!7 1#9 4675#!712 !#3.0:14!.# !""# $%%% & %$’( +), & +’) .?@<ABC )%%+ ;<= > )* #< > ( ,
(
实现概念扩展的基本推理流程如图 B 所 示。 首 先采用 ,*#. 中 的 实 例 验 证 (相 容 检 测) , 在 +*#. 中 定位初始查询关 键 词 所 对 应 的 本 体 中 的 规 范 概 念, 再根据本体的概念描述、 关系定义及规则, 执行相应 的扩展操作, 推 出 与 其 同 义、 上 下 位 及 关 联 的 概 念, 实现语义扩展。基于扩展概念集上检索出的内容体 现了语义, 不单纯是语法上的词匹配内容。
( $’ , !(’ $" )" 其中, ,( $) " (
!
("$
,( $) (
$ ( 表示由概念节点 $ 引 $) ( )。 , ( % -"# .
出的, $ ’ 到 $ " 的最短路径上第 ( 条边的权值。 定义 # : 概念 $ ’ , $ " 间的语义相似度: ( $’ , /() $" )" $ & 其中, !(’ ()* " % ’ $ &
[ !]
索, 而且概 念 空 间 建 立 在 关 联 复 杂 的 领 域 本 体 上。 因此, 在扩展概念时, 我们应全面权衡概念间的各种 关联, 综合语义相似度和语义相关度两项指标, 作为 概念词汇在意义上相符合的统一标准。 "#$ 语义扩展度的计算 概念在语义层次树上的最 短路径 亦称“语 义距 离” 。一般说来, 语义距离越近, 相似程度越高, 反之
收稿日期:)%%* 年 D 月 $E 日 作者简介:聂卉, 女, 博士, 研究领域: 智能信息处理、 知识发现、 知识检索。 6FGHI=: 男, 博 IJJKL M GHI= > JNJO > BPO > ?K。龙朝晖, 士, 研究领域: 企业信息化。 (项目号: 。 $) 本论文得到 )%%( 年广州市哲学社会科学十五规划项目资助 $%%%%FE))))$E)
[ A] 。 念定义是否存在矛盾, 检验知识表达的正确性
题, 建立在领域本体所构建的概念空间之上, 所有概 念均被组织在树 状 的 层 次 结 构 中, 能够保证语义距 离的可计 算 性。 设 ! " , !# 为 层 次 树 上 的 任 意 两 概 念, 有如下计算公式: 定义 ! : 概念 ! " , ! # 间的最短路径长度:
聂 卉$ 龙朝晖 )
($ Q 中山大学资讯管理系, 广州 ($%)+( ;) Q 中山大学岭南学院, 广州 ($%)+()
摘要
本文研究在本体构建的语义网环境下, 量化领域概念的关联程度扩展概念, 实现概念 检 索 的 问 题。 利 用
语义的层次结构和蕴涵关联计算语义相似度和相关度, 并结合二者, 提出语义扩 展 度 的 概 念 及 计 算 方 法, 由此控制 调整扩展概念集的范围和大小。经过实例计算与分析, 验证并阐明了该方法的合理性、 有效性及其特点。
(
(
$ , 是 一个 可 调 节 的 参 % 012!"# !
)
( $’ , !(’ $ " ) $+! % ’ !(’ ()*
)
0
实例验证及分析
实例为一个简单的学校领域本体。针对本体中 定义的概念及其 关 联, 我们用程序实现了本文提出 的概念扩展。经过计算、 比较与分析, 验证并阐明了 该方法的可行性、 合理性及特点。 图中实线有向边 图 % 为学校 本 体 的 概 念 网 络, 代表子属关 系 “ 123)” , 构 成 概 念 层 次 树; 虚线有向边 被定义为 为概念间的 蕴 涵 推 理 关 系, 如 “ 124)56789 ” 的直 接 关 联。 由 于 课 程 “ !;(A=@6B3 〈 :;<=>6 , ?@=<67@〉 等为 “ :;<=>6” 的子 类, 继承 父 类 “ :;<=>6” 的 属 性, :” !;(A=@6B3: 与 ?@=<67@ 之 间 也 建 立 了 关 联,即 〈 !;(A=@6B3: ,?@=<67@ 〉 : 124)56789。 直 接 定 义 与 间 接 推理形成的蕴涵关系与概念层次结构共同构成概念 的语义网络。 计算 假设 ?@=<67@ 为 待 扩 展 的 规 范 化 概 念, 相关度及结合二者 ?@=<67@ 与其他概念间 的 相 似 度、 得出 的 语 义 扩 展 度, 结 果 如 表 $ 所 示。下 面 从 三 方 面进行分析。 #&’ 与单纯推理法的比较 单纯推理获取 “学生” 的上下位、 同级、 语义蕴涵