当前位置:文档之家› 语义检索的原理及其实现

语义检索的原理及其实现


这种索引方式能够向下兼容传统的文本索引 , 例如 :
假定 George M iller 出 现 在 地 址 为 URL、描 述 内 容 为
emp loyee的资源中 , 可以建立如下索引 :
< “Gorge M iller”, Emp loyee, > — >URL
上述索引表示 George M iller出现在地址为 URL 的文
可以将两个三元组合并 , 建立索引 :
< “M iller”, Emp loyee, lastname > — >URL
这条索引表示地址为 URL 的资源是 Emp loyee的一个
实例 , 并且该实例具有 lastname属性值为 M iller。上述的
式子可以范化为 :
<L itteral, class, p roperty > — >URL
映射档案 , 在以后的查询中 , 如果在用户的映射档案中可
以直接找到对照的概念 , 则直接结束转换过程 。如果在映
射档案和本体库中都无法找到相对照的概念或实例 , 可以
考虑让用户手工浏览本体来实现这种转化 。
21113基于自然语言的输入 基于自然语言输入相比较前

面两种方式更加方便和智能 。对于这种输入方式 , 系统首
1) 背景指数 ( Context Index, C I) , 背景指数反映了 语义关联通过用户所感兴趣的区域的情况 , 定义如下 :
CA
= l
1 (A )
n
(
(∑
i=1
(wR i × Xi
))
×
(1 -
l
Z (A
)
)
)
其中 , n代表语义关联所经过的区域数目 , l (A ) 代
表语义关联所涉及的实体和关系数目 , Xi 是第 i个区域的 实体和关系集合 , Z是指不在任何关系关心区域的实体和
关系集合 。
2 ) 深 度 指 数 ( Component Subsump tion W eight, CSW ) , 深度指数反映了语义关联中的实体和关系范化程
度,
通过
c swi
= Hci 可以计算出实体或者关系的深度指 H he igh t

(Component Subsump tion W eight,
档中 , 该文档是对 Emp loyee类的描述 。 除了建立单纯的语义索引表外 , 与传统关键词检索中
对关键词赋予一定的权重相类似 , 还可以给语义对象及实 例赋予一定的权值 。权值的计算可仿照传统检索的 TF2
IDF参数来制定 , 实例 Ii 在文档 Dj 中的权值可以计算为 :
wi, j
= freqi, j m axk freqk, j
目前所见的语义检索系统在检索过程和模式上既引入 了新的元素 , 又在很大程度上类似于传统的检索系统 。以 2004年 D. Vallet等人进行的基于本体的检索模型研究为 例 [1 ] , 其系统的检索流程大致是 : 用户通过检索界面以 表单 、关键词或者自由文本等形式输入检索条件 , 系统首 先对检索 条 件 进 行 解 析 , 转 化 为 本 体 查 询 语 言 (例 如 RDQL ) , 通过本体查询语言在语义信息库中找到符合条 件的三元组 (本体实例 ) , 最后在文档库中找出与这些三 元组相匹配的文档 , 提供给用户 。由此可以看出 , 在检索 的最后一个步骤中 , 系统仍然是在文档库中进行查找 , 不 同的是 , 在前面的查询过程中利用各种检索条件找出了具 体的三元组实例 。
2 语义检索的原理
目前学术界对语义检索没有一个确切的定义 , 笔者认 为 : 它是对检索条件 、信息组织以及检索结果显示赋予了
3 本文系上海市教委培养优秀青年教师科研专项基金成果之一 , 项目编号 : 353169。
— 182 —
一定语义成分的一种新的检索方式 。 2 11 对检索入口赋予语义
用户输入接口的设计 , 在语义检索模块的设计中具有 非常重要的地位 。一般情况下 , 用户输入的约束条件越多 越精确 , 则表述的语义就越清楚 , 与此同时用户的操作也 越麻烦 ; 相反 , 用户输入的约束条件越少 , 用户所需进行 的操作越简单 , 但系统需要花更大的精力来理解用户的输 入所代表的语义 。以对用户输入的约束条件的繁简为原 则 , 可以将输入形式划分为基于复杂表单式的检索 、基于 查询词的检索和基于自然语言的检索 3种输入形式 。 21111 基于表单的输入 基于表单的输入在传统的检索 系统中应用非常广泛 , 用户可通过表单对检索项 、检索 词 、数据源日期等作出限制 。与此类似 , 语义检索的输入 也可通过表单来限制 。不同的是 , 在前者中 , 与表单项相 对照的是数据库中的字段 , 而对于后者 , 与表单项相对照 的是语义信息库中的语义实体 、语义属性或语义关系 。 21112 基于查询词的输入 与复杂表单输入相反 , 基于 查询词的检索输入则相对简单 , 用户只需要输入按照空格 分开的若干个词 , 系统对用户输入的词进行转换 , 得到系 统所能够理解的语义概念 。如何将词转化为概念 , 一种可 行的方式是在检索系统中定义词和概念的转化规则 [2 ] , 例如 : 如果 k是概念 Y的一个实例 , 则将词 k转化为概念 Y; 如果 k是概念 Y的实例 , 但 Y又是 Z的子概念 , 则将 词 k转化为概念 Y和概念 Z。在判断 k是否是概念 Y的实 例时 , 可以利用 Y的标签进行判断 。为了节省在本体库
B row ser层涉及到用户的交互界面 , 这里可以分为两 部分 : 一是用户的输入部分 , 二是数据展现部分 。对于输 入部分 , 取的是内嵌在 app let里 Java表单 。数据展现部分 使用了两种模式 , 即图形化模式和文本模式 。
在 B row ser 层 中 , 笔 者 利 用 了 TouchGraph 公 司 的 GraphLayout组件 , TouchGraph中的 GraphLayout提供了一 种对信息网络的非常便利的可视化方式 。通过赋予它们以 虚拟的图像 , 用户就可以在较大的网络中自由浏览 , 在屏 幕上以多种方式对节点进行操作 。 312 W eb Con ta iner层
×log
N ni
其中 , freqi, j是实例 Ii 在文档 Dj 中出现的次数 , maxk
freqk, j是文档 Dj 中出现次数最多的实例所出现的次数 , ni
是出现了 Ii 的文档数目 , N 是总的文档数目 。实例在文档
中出现的次数可以通过实例标签在自然文本中出现的频度
来计算 , 一旦在文档中找到了实例的标签 , 则在实例和文
档之间建立索引 。
213 对检索结果赋予语义
对检索结果赋予语义是指检索的结果不再只是纯粹的
·情报理论与实践 ·
文档 , 而是语义对象及其实例 。其中 , 语义关联就是非常 重要的一类语义对象 , 它是指在某一领域模型或者应用 中 , 具有意义的或者为用户所感兴趣的实体之间的关系 。 它包括本体模型中直接定义的语义关系 , 例如 “ispartof”、 “isa”等 。语义关联的设置依赖于具体的应用 , 例如在 LSD IS的语义研究项目中 [3 ] , 用户可以查看个人和个人之 间 , 以及个人和组织之间的语义关联 , 研究者首次通过背 景指数 、深度指数等来计算语义实体之间的关联 [425 ] 。
Keywords: semantic search; semantic W eb; Ontology; J2EE
1 研究背景
传统的基于关键词的检索方式由于字义本身与其概念 的延伸不在同一级上 , 使得查询的结果可能仅是在字面意 义或者某层意义相匹配 , 但人们想要的往往是信息的概念 及相关成分 , 语义检索的出现正是为了解决这一问题 。
! 理论与探索 #
ITA
返回处理完成的数据后 , 依照特定的请求 , 以对应的数据 格式返回给客户层 。这一层所完成的任务分为 4个部分 : ①获取客户层发来的 http 请求 , 分析应该调用的业务逻 辑 ; ②向应该调用的业务逻辑发出消息 ; ③将 EJB层返回 的 XML数据转换成对应请求的数据格式 , 如节点集合或 者 htm l格式文件 ; ④将相应的数据发送给客户层 。 313 EJB Con ta iner层
关键词 : 语义检索 ; 语义网络 ; 本体 ; J2EE
Abstract: Proceeding from the definition of semantic search, this paper discusses the basic p rincip les of how to endow information input, information organization and searching result w ith semantic meaning. The author follow s the latest Java EE criterion in the construction of a p rototype system. The system is divided into 4 layers: the B row ser layer, the W eb Container layer, the EJB Container layer and the E IS layer. Through the p rototype system , the feasibility of using the J2EE framework to develop the semantic search system is p roved.
CSW ) , 其中 ,
Hc

i
Ci 的深度 , Hhe 是 ight 整个分支的深度 , 而整个语义关联的
系数可以定义为 :
相关主题