当前位置:文档之家› 基于Google与KL距离的概念相关度算法

基于Google与KL距离的概念相关度算法

假设,通过测定两个词语在网络文本中的共发频率来测量词语之间的距离。

度量方式简单,容易推广,但假设过于简单,无法准确符合人类的认知。

Jianping Fan 等将Google 距离的思想用在图像标签上,提出了一种结合图像标签共现概率与W ordNet 的概念相关性度量方法,这种方法具有和Google 距离类似的度量方式简单,容易推广的特点,且图像标签的引入使算法考虑了图像的内容,但该算法的主要问题是标签不准确和数量少,难以得到准确的距离度量。

本文提出一种新的概念相关性度量算法,其基本思路是结合Google 与KL 距离作为概念文本相关性度量标准,解决了W ordNet 的词汇量和难以扩展问题。

2 概念相关性度量算法
2.1 基于Google 距离的概念相关性度量
Google 距离【3】通过测定两个词语在网络文本中的共现频率来测量词语之间的距离。

设要计算两个概念1C 和2C 的相Google 距离是基于W eb 词汇共现概率计算的,与W ordNet 的作用类似,可反映概念间的语义相关性,后面的实验也证明了用Google 距离测量的语义相关性和W ordNet 是基本吻合的。

由于W eb 具有词汇量大且能实时更新的特点,因此将Google 距离作为概念间语义相关性的测度可以有效地弥补W ordNet 在词汇量上的限制。

但是,与W ordNet 类似,Google 距离也存在由于特殊概念关系 (如同义、近义、一词多义)导致的相似性度量与图像内容不符的问题。

而且,W eb 上信息的杂乱性也会对相关性度量造成一定干扰。

为了提高
基金项目:国家自然科学基金资助项目(61075014, 60875016);教育部博士点基金资助项目(20096102110025)
作者简介:连 宇(1985-),男,硕士研究生,主研方向:图像处理,模式识别;彭进业,教授、博士生导师;谢红梅,副教授;冯晓毅,教授、博士生导师
收稿日期:2010-0-0 E-mail :dongzhou399@
网络出版时间:2011-2-12 14:01
网络出版地址:/kcms/detail/31.1289.tp.20110212.1401.012.html
2 计 算 机 工 程 2011年3月5日 概念相似性度量的有效性,有必要结合视觉信息来计算概念间相关性以弥补Google 距离所具有的这些缺点。

2.2 基于KL 距离的概念相关性度量
视觉语言建模【4】基于统计学和概率论理论对视觉语言进行建模,通过对相邻图像块特征之间的空间依赖性进行分析,捕获视觉语言中的规律和特性,包括图像分割、特征提取、Hash 码转化和视觉语言模型训练四个步骤。

对两个概念分别进行建模后,再计算其KL 距离。

KL 距离是基于图像内容计算得到的,能反映两个概念对应图像内容之间的相关程度。

概念间视觉相似度算法流程可描述为如图1所示。

Hash
Hash
KL
视觉相关度算法流程在视觉语言模型训练中设定了以下假设【4】:视觉单词仅与其左边和上边的单词相关联。

在视觉语言文档中,单词是以Hash 码矩阵的形式存在的,三个单词形成一个三元模型
1,,1,,i j i j ij w w w −−〈〉。

视觉单词矩阵如图2所示。

00010203101112132021222330313233 w w w w w w w w w w w w w w w w ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣
⎦ 图2 视觉单词矩阵
三元模型的训练过程用下式表示:
1,,11,,11,,1()(,,)()
i j i j ij ij i j i j i j i j Count w w w C p w w w C Count w w C −−−−−−=
(3)
在训练过程中,难免会出现因数据稀疏引起的零概率问题。

为了解决此问题,采用回退(back-off)和打折
(discounting)相结合的数据平滑【5】方法处理。

2.2.5 KL 距离
KL 距离定义如下【6】:
1
2
1
2
2
1
12()
()
(,)()lg
()lg
()
()
C C KL C C l
l
C C P l P l
D C C P l P l P l P l =+∑∑ (4)
这里1
()C P l 和2
()C P l 对应的是在两个分布下第l 个三元模型的概率密度。

2.3 概念相关度
根据所得到的Google 距离与KL 距离,我们定义概念相关度12(,)Sim C C 为:
(,)
(,)
D
C C D
C C 图3 算法流程表1为部分概念列表。

irport
ast
hway
ark
b irds
do g
mou ntain
s ky
b mw
flo wer nig htfall
t rees
c ity
fo otball
oce an

对应每个概念词从MIT 的LabelMe 图像数据库
(/)中选取200幅典型代表性图像作为提取视觉信息的样本库。

下面对上述三类概念词汇分别进行实验,以验证本文算法的有效性。

3.2 普通概念词汇的比较实验
对选取的50对普通概念词汇,分别采用W&P 算法与本文算法计算概念1和概念2之间的相关性并比较它们的接近
程度。

Wu&Plamer 算法是基于W ordNet 路径的典型的概念相似度测量方法,被广大学者广泛采用,其相似度归一化为0到1之间,方便我们用于比较实验。

限于篇幅,选取部分数据罗列,如表2所示。

概念1 概念2 W&P 算法 本文算法 bird woodland 0.4706 0.4578 coast forest 0.6154 0.6223 mountain shore 0.7692 0.7367 forest park 0.6667 0.5899 …



我们通过相关系数r 来比较两种算法的接近程度。

如式(6)所示:
图4 特殊关系概念的相似度比较
我们定义一个相关性结果与主观判断结果的兼容率
Compat 为:
11(1)N
i i i i
Sim Subject Compat N Subject =−=−∑ (7)
其中,N 为所选概念对数目,i 表示概念对的序号,i Sim 与
i Subject 分别为所选算法与主观判断所得到的概念相关度。

根据式(7)与所得数据,我们得到Wu&Plamer 相似度与主观判断的兼容率为59.54%,而本文算法与主观判断的兼容率为87.37%。

可见,本文算法度量特殊关系概念的相关度与主观判断的结果较为吻合,较Wu&Plamer 结果更为客观。

3.4 非W ordNet 概念词汇的相关性度量
将20对非W ordNet 概念添加到实验所用的概念库中,利用本文算法进行概念相关度计算,同时对其进行主观打分。

部分实验结果如表3所示。

表中bmw 、nba 等是互联网中经常出现但在W ordNet 中不存在的概念。

Sim 表示采用本文算法所得到的相关度,Subject 表示主观判断的均值。

概念1 概念2 度 分 bmw car 0.6835 0.7230 Compat 为词汇的度量Personalized
large-scale Circuits and IEEE
2007, international New
data for the
language model component of a speech recognizer[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1987, 35(3):400-401.
[6] Wu Suyan, Guo Qiao. Kullback-Leibler distance based concepts
mapping between web ontologies[J]. Journal of Southeast University, 2007, 123(3):385-388.。

相关主题