当前位置:文档之家› 基于概念特征的语义相似度计算方法

基于概念特征的语义相似度计算方法


2 相关工作
目前 ,国内外学者 已经对概念相似度计算进行了广泛的
探索和研究 ,提 出了很 多计算相似 度的方法 。其 中具有代表 性 的相 似度计算方法主要有基于概念信 息量 的方法I、基于
3 基于概念特征的语义相似度计算
31 概念 的特征属性和特征 . 在本体中 , 个概念往往包含很多属性 , 例如概 念 b o , o k 它 的属性包括作者、出版 日期、出版地 、类 型等。但 是,从 另外一 个角度 去分析概念 ,比如 hma 可以分为 ma 和 u n n
定义 1 能够 用 来 区分 概念 的属性 被 称为 概念 的特征
属 性。
的特征 集合 再加上一个其独有 的特征。
定义 2概 念的特征 属性所取的值 称为特征 , 特征能够用
来区分概念 。 每个概念都能够 用一组 清晰的特征 来描述 ,例如生物的 特征集为 { 生命 的物 体、能进行新陈代谢、能够生长繁殖和 有 发 育 } 为 了 便 于 理 解 , 同样 采 用 以上 例 子 加 以说 明 , 由于 。 ma n和 fmae都是 h ma e l u n的子 类,因此它们具有与 h ma u n
c mp t to , h sp p rp o o e e s m a tc smia t t c c lulto t o a e n t e f a u e o o c p ,whih ma e u l s f t e o u ai n t i a e r p s sa n w e n i i lr y me r a c ai n me h d b s d o h e t r fc n e t i i c k sfl u eo h
DOI 03 6 ̄is.0 032 . 1 . . 2 :1.9 9 . n10 —4 82 20 0 s 0 5 5
1 概 述
概念语义相似度计算在很多领域都有着广 泛的应 用,如
人工智能、 自然语言处理以及认 知科 学。相似 度计算能够提
将概念表示成向量的形式 ,然 后通过计 算向量夹 角的余弦值
重点课程建设基 金资助项 目(9 07 1 13 0 9 16 — 13 4 0 1 )
作者倚 介:唐雅媛( 8一) 女 , 12 , 9 讲师、硕士研究 生,主研方向 : 语
义 网,本体 ; 徐德智 , 教授 、博士 后 ;赖 收稿 日期 :2 1-0 1 0 11—7 雅 , 士研究生 硕 E m i a acu 2 . m - a :l y_ s @1 6 o l i c
i f r t n o n o o y sr cu e t e p e s s e c o c p s a s t o e t r s a c r i o t e h e a c y o n o o y nd i to u e d h n o ma i f o t l g tu t r .I x r s e a h c n e t a e f f a u e c o d ng t i r r h f o t l g ,a n r d c s a wi t o h i fu n i g f c o s t o f c e t of e c e t r .I o t i h s m a t smia i h o g ac l t g t e i l rt e we n t e s t n e c n a t r a he c e l i i n a h f a u e t b a ns t e e n i i l t t r u h c lu ai h smia i b t e wo s t .I c r y n y i to u e e t n u n i g f c o , n me d h e n i ti o am o e u d r tn a l o m . e r tc l n l ssa d e p rm e t lr s ls n r d c sa d p h i f e c n a t r a d a n s t e s ma t me rc t r n e s a d b e f r Th o e ia a y i n x e i n a e u t l c a
相 同的属性 ,即名字、性别、年龄、 出生地、生 日等 ,仔细 分析 上文 列出的属性 ,很显然 ,名字 、年龄、 出生地、 生 日
等属性信 息并 不能 区分 h ma 为 ma u n n还是 fma , e l 唯一能够 e 区分它们 的属性是性 别 ,因此 ,根据 定义 l和定义 2 ,性别 为 ma n和 fmae的特征属性 ,性别所取 的值 即为 ma e l n和 fmae的特征 。 e l 当然这个概念特征 是基于 ma n和 fmae e l 都是 h ma u n的基础 上, ma 即 n和 fma e l e的特征属性包含了 h ma u n
关健词 :语义 We ;本体 ; b 概念特征 ;特征属性 ; 语义相 似度
S m a tcS m i r t a c l to h d e n i i l iy Ca u a i n M e o C a l tO Ba e n Co c p a u e s d0 n e t Fe t r
法。 根据概念在 本体 中的层 次结构来确定特征集合 ,引入宽度影 响因子 ,给每个特征 赋予不同的权 值 , 通过 计算 2 个概念特征集合 问的相
似度得 到概念的相似度 ,引入深度影响因子 ,将相似度公 式表示成更直观 的形式 。实验结果表明 ,该方法计 算简便 ,且 比较接近 人类主观
的判断值 。
T ANG a y a . Y . u n , XU . h LAI 一 De z i. Ya ( . p r n o C mp tr n 1 De at t f o ue dCo me a mmu iainE gn e ig Hu a nc t o n ie r , n nUnv ri f ce c n n ie r g Y n z o 2 1 0 C ia n iest o S i e dE gn ei , o g h u4 5 0 , h n ; y n a n 2 C l g f no main S in e n n ie r g C n a S uhUnv ri , h n s a4 0 3 C ia . ol e fr t c c dE gn e i , e  ̄ l o t ies y C a g h 1 8 , hn ) e oI o e a n t 0
[ s at Ab t c]Du eso c mig fcret e ni smi t mer o l sn esmat fr t no noo yadi o lx r et t h r o n s urn mat i l y tcn tul u igt e ni i omai fo tlg n s mpe oh t o s c  ̄i i f y h cn o tc
so a e tcismpe adtersl r ls u n u g n. h w t th r h t me i s i l,n ut ae oet h ma d me t h e s c O j
[ yw r s e ni We ;noo y c ne tetr;etr tiue sma t i l i Ke o d ]sma t b o tlg ; o cp aue fa ear t;e ni s a t c f u tb c mi ry
第3 8卷 第 5期
V0 - 8 l3






21 0 2年 3月
M a c 2 2 r h 01
NO. 5
Co pu e g n e i m trEn i e rng
人 工智 能及 识别 技 术 ・
文章编号:1 -4802 5 7 3 文献标识码: 0 . 2( 10— lo o 3 2 ) A
来得到 2个概念 的相 似度值 。另外 ,文献【—】 56也是研 究概念 相似度计算 的方法 ,用到 了很多数学中理论 ,如粗糙 集、形 式概念分析、贝叶斯估计等 , 是以上方法都存在一些缺点 : 但
高信息检索 的精 度…、发现不 同本体 中实体之 间的映射 ,以 及 用于大规模 本体的分块和模块 。随着语义 We 的快速 发 b 展 ,近几年来本体的数 目越来越多 ,本体规模 也不断增 大, 迫切地需要一种更为精确且简便的概念相似度计算方法来计 算单个本体 中概念之 问的语义相似度 。因此 ,本文提出一种
C net的多少来确定概 念之 间的相 似程度 。这 些方法依据 o tn) 概 念 C在某个指定文档 中出现 的频率给每一 个概念关联一个
概 率 pc ,然后将每个概念的概率 的负对数 似然值作 为这个 () 概 念的信息量,即 I () lg () 基 于距离的方法一般先 C c =一o pc 。
中圈分类号: P9. T 31 1
基 于概 念 特征 的语 义相 似 度计 算 方 法
唐雅嫒 L ,徐德智 ,赖 雅
(. 1 湖南科技学院计算机与通信工程系 ,湖南 永州 4 5 0 ;2 中南大学信息科学与工程学院,长沙 4 0 8 ) 2 10 . 10 3

要: 现有语义相似度计算 方法没有充分利 用本体 中的语义信息 ,且计算方法复杂 。为此 , 出一种基于概念特征 的语义相似度计算 方 提
开的边的个数越 多 ,概 念间的距离就越 大,概念 的相 似度就
越小 。基于 背景向量 的方法通 过统计概 念在 文档 的出现频率
第3卷 8
第5 期
唐雅媛 ,徐德 智 ,赖
雅 :基于概念特征 的语义相似度计算方法
11 7
义 。因此 ,本文引入一些新的概念 ,其定义 如下 :
代 表一个特征。一个概念 的特征集合为它 的直接父概念结点
计算 2个概念 间的语义距离 ,然后将距离转换成相 似度值 , 该方法 主要考 虑将 2个概念分开的边 的个数 ,将 2 个概念分
相关主题