当前位置：文档之家› 语义检索的原理及其实现

语义检索的原理及其实现

这种索引方式能够向下兼容传统的文本索引 , 例如 :
假定 George M iller 出现在地址为 URL、描述内容为
emp loyee的资源中 , 可以建立如下索引 :
< “Gorge M iller”, Emp loyee, > — >URL
上述索引表示 George M iller出现在地址为 URL 的文
可以将两个三元组合并 , 建立索引 :
< “M iller”, Emp loyee, lastname > — >URL
这条索引表示地址为 URL 的资源是 Emp loyee的一个
实例 , 并且该实例具有 lastname属性值为 M iller。上述的
式子可以范化为 :
<L itteral, class, p roperty > — >URL
映射档案 , 在以后的查询中 , 如果在用户的映射档案中可
以直接找到对照的概念 , 则直接结束转换过程。如果在映
射档案和本体库中都无法找到相对照的概念或实例 , 可以
考虑让用户手工浏览本体来实现这种转化。
21113基于自然语言的输入基于自然语言输入相比较前

面两种方式更加方便和智能。对于这种输入方式 , 系统首
1) 背景指数 ( Context Index, C I) , 背景指数反映了语义关联通过用户所感兴趣的区域的情况 , 定义如下 :
CA
= l
1 (A )
n
(
(∑
i=1
(wR i × Xi
))
×
(1 -
l
Z (A
)
)
)
其中 , n代表语义关联所经过的区域数目 , l (A ) 代
表语义关联所涉及的实体和关系数目 , Xi 是第 i个区域的实体和关系集合 , Z是指不在任何关系关心区域的实体和
关系集合。
2 ) 深度指数 ( Component Subsump tion W eight, CSW ) , 深度指数反映了语义关联中的实体和关系范化程
度,
通过
c swi
= Hci 可以计算出实体或者关系的深度指 H he igh t
数
(Component Subsump tion W eight,
档中 , 该文档是对 Emp loyee类的描述。除了建立单纯的语义索引表外 , 与传统关键词检索中
对关键词赋予一定的权重相类似 , 还可以给语义对象及实例赋予一定的权值。权值的计算可仿照传统检索的 TF2
IDF参数来制定 , 实例 Ii 在文档 Dj 中的权值可以计算为 :
wi, j
= freqi, j m axk freqk, j
目前所见的语义检索系统在检索过程和模式上既引入了新的元素 , 又在很大程度上类似于传统的检索系统。以 2004年 D. Vallet等人进行的基于本体的检索模型研究为例 [1 ] , 其系统的检索流程大致是 : 用户通过检索界面以表单、关键词或者自由文本等形式输入检索条件 , 系统首先对检索条件进行解析 , 转化为本体查询语言 (例如 RDQL ) , 通过本体查询语言在语义信息库中找到符合条件的三元组 (本体实例 ) , 最后在文档库中找出与这些三元组相匹配的文档 , 提供给用户。由此可以看出 , 在检索的最后一个步骤中 , 系统仍然是在文档库中进行查找 , 不同的是 , 在前面的查询过程中利用各种检索条件找出了具体的三元组实例。
2 语义检索的原理
目前学术界对语义检索没有一个确切的定义 , 笔者认为 : 它是对检索条件、信息组织以及检索结果显示赋予了
3 本文系上海市教委培养优秀青年教师科研专项基金成果之一 , 项目编号 : 353169。
— 182 —
一定语义成分的一种新的检索方式。 2 11 对检索入口赋予语义
用户输入接口的设计 , 在语义检索模块的设计中具有非常重要的地位。一般情况下 , 用户输入的约束条件越多越精确 , 则表述的语义就越清楚 , 与此同时用户的操作也越麻烦 ; 相反 , 用户输入的约束条件越少 , 用户所需进行的操作越简单 , 但系统需要花更大的精力来理解用户的输入所代表的语义。以对用户输入的约束条件的繁简为原则 , 可以将输入形式划分为基于复杂表单式的检索、基于查询词的检索和基于自然语言的检索 3种输入形式。 21111 基于表单的输入基于表单的输入在传统的检索系统中应用非常广泛 , 用户可通过表单对检索项、检索词、数据源日期等作出限制。与此类似 , 语义检索的输入也可通过表单来限制。不同的是 , 在前者中 , 与表单项相对照的是数据库中的字段 , 而对于后者 , 与表单项相对照的是语义信息库中的语义实体、语义属性或语义关系。 21112 基于查询词的输入与复杂表单输入相反 , 基于查询词的检索输入则相对简单 , 用户只需要输入按照空格分开的若干个词 , 系统对用户输入的词进行转换 , 得到系统所能够理解的语义概念。如何将词转化为概念 , 一种可行的方式是在检索系统中定义词和概念的转化规则 [2 ] , 例如 : 如果 k是概念 Y的一个实例 , 则将词 k转化为概念 Y; 如果 k是概念 Y的实例 , 但 Y又是 Z的子概念 , 则将词 k转化为概念 Y和概念 Z。在判断 k是否是概念 Y的实例时 , 可以利用 Y的标签进行判断。为了节省在本体库
B row ser层涉及到用户的交互界面 , 这里可以分为两部分 : 一是用户的输入部分 , 二是数据展现部分。对于输入部分 , 取的是内嵌在 app let里 Java表单。数据展现部分使用了两种模式 , 即图形化模式和文本模式。
在 B row ser 层中 , 笔者利用了 TouchGraph 公司的 GraphLayout组件 , TouchGraph中的 GraphLayout提供了一种对信息网络的非常便利的可视化方式。通过赋予它们以虚拟的图像 , 用户就可以在较大的网络中自由浏览 , 在屏幕上以多种方式对节点进行操作。 312 W eb Con ta iner层
×log
N ni
其中 , freqi, j是实例 Ii 在文档 Dj 中出现的次数 , maxk
freqk, j是文档 Dj 中出现次数最多的实例所出现的次数 , ni
是出现了 Ii 的文档数目 , N 是总的文档数目。实例在文档
中出现的次数可以通过实例标签在自然文本中出现的频度
来计算 , 一旦在文档中找到了实例的标签 , 则在实例和文
档之间建立索引。
213 对检索结果赋予语义
对检索结果赋予语义是指检索的结果不再只是纯粹的
·情报理论与实践 ·
文档 , 而是语义对象及其实例。其中 , 语义关联就是非常重要的一类语义对象 , 它是指在某一领域模型或者应用中 , 具有意义的或者为用户所感兴趣的实体之间的关系。它包括本体模型中直接定义的语义关系 , 例如 “ispartof”、 “isa”等。语义关联的设置依赖于具体的应用 , 例如在 LSD IS的语义研究项目中 [3 ] , 用户可以查看个人和个人之间 , 以及个人和组织之间的语义关联 , 研究者首次通过背景指数、深度指数等来计算语义实体之间的关联 [425 ] 。
Keywords: semantic search; semantic W eb; Ontology; J2EE
1 研究背景
传统的基于关键词的检索方式由于字义本身与其概念的延伸不在同一级上 , 使得查询的结果可能仅是在字面意义或者某层意义相匹配 , 但人们想要的往往是信息的概念及相关成分 , 语义检索的出现正是为了解决这一问题。
! 理论与探索 #
ITA
返回处理完成的数据后 , 依照特定的请求 , 以对应的数据格式返回给客户层。这一层所完成的任务分为 4个部分 : ①获取客户层发来的 http 请求 , 分析应该调用的业务逻辑 ; ②向应该调用的业务逻辑发出消息 ; ③将 EJB层返回的 XML数据转换成对应请求的数据格式 , 如节点集合或者 htm l格式文件 ; ④将相应的数据发送给客户层。 313 EJB Con ta iner层
关键词 : 语义检索 ; 语义网络 ; 本体 ; J2EE
Abstract: Proceeding from the definition of semantic search, this paper discusses the basic p rincip les of how to endow information input, information organization and searching result w ith semantic meaning. The author follow s the latest Java EE criterion in the construction of a p rototype system. The system is divided into 4 layers: the B row ser layer, the W eb Container layer, the EJB Container layer and the E IS layer. Through the p rototype system , the feasibility of using the J2EE framework to develop the semantic search system is p roved.
CSW ) , 其中 ,
Hc
是
i
Ci 的深度 , Hhe 是 ight 整个分支的深度 , 而整个语义关联的
系数可以定义为 :

e商务文档

语义检索的原理及其实现

相关文档推荐：