第6章 信息检索与服务
(2)标引词空间
向量空间模型介绍
T3 D3={ d31,d32, d33 }
D1={d11,d12, d13 } T2
ቤተ መጻሕፍቲ ባይዱ
T1
D2={ d21,d22, d23 } 图 三维文献空间
向量空间模型介绍
2. 项权重
(1)词频
越重要的项分配越高的权值 可以用词频来作为该项的权重(用tf表示) 假设存在一个文献集合,其中大部分的文献都包 含了某一项,则说明该项对某一主题的专指度较 差,可能就不太重要 在设计项权重时,要考虑逆文献频率 (用idf表 示)
6.1.4 概率模型
基本思路:
给定一个用户提问,则检索系统中存在着一个与该 提问相关的理想命中结果集合R(该集合只包括与查 询完全相关的文档而不包括其他不相关的文档) 在用户提出检索要求时,检索系统并不知道这个理 想结果集合的特性
在检索开始之时就需要对R的特性进行某种猜测
根据初始的猜测,检索系统检索到一个初步的命中 结果集合 基于相关反馈的原理,需要进行一个逐步求精的过 程
(2)文献频率
向量空间模型介绍
2. 项权重
(3)权重的规范化处理
为了抵消由篇幅带来的不同影响,经常要对项权 重进行规范化处理 在各种规范化方法中,余弦规范是一种常用、有 效的方法:tf×idf权重/文献向量的欧氏长度
向量空间模型介绍
3.文献向量与查询向量的匹配
匹配函数
传统布尔检索模型
查询表示
布尔提问式q = t1 and(t2 or not t3) q的主析取范式 (t1 and t2 and t3)or(t1 and t2 and not t3)or(t1 and not t2 and not t3) q的简化形式qdnf (1,1,1) or (1,1,0) or (1,0,0),其中,(1,1,1)、(1,1,0) 和(1,0,0)是qdnf的3个合取子项(合取子项可用 符号qcc表示)
i i 1
i i i 2 i 2
N
p
1
2
1t
2t
|p ]
1 p
向量空间模型的评价
优点
简单,功能却非常强大
能将非结构化的文献表示成向量的形式,使得各种数学处理成为 可能 模型的检索效果和布尔检索模型比起来,要好得多
不足
改进
忽略项之间存在的相互联系,必然使得检索效果产生极大的 偏差 传统向量处理模型不能处理布尔表达等结构化查询
单汉字(主键字)
6.1.5 全文检索
以倒排表模型为基础的全文检索有检索 速度快,与原文无关的特点 其缺点主要包括两个方面:
首先,空间和时间效率低; 其次,当文本集合不断变化时,需要不断重 建全文索引
第一个问题通常采用压缩技术和更加高 效的编码策略加以解决
6.1.5 全文检索
全文检索模型中的查询表示
通常采用布尔模型的查询表示方式
6.1.5 全文检索
全文检索模型中的匹配方式
检索的匹配算法一般是根据索引结构而研制 的 检索速度取决于匹配算法,一个优秀的全文 检索算法,在百兆级的数据库中,检索速度 应该在秒级水平,否则,不能算是一个好的 全文检索算法
Lucene
6.1.5 全文检索
全文检索技术指标
指导查询本体的构造本体
6.1.7 超文本模型
所谓超文本,既是一种信息的组织形式,也是 一种信息检索技术 超文本不是单纯以线性方式存储文本,而是附 加了一种非线性结构来组织信息,即在文本中 设置若干超级链接(简称超链)指向相关位置, 以确保在顺序阅读文献的同时,还可以顺着超 级链接的指引“跳跃”阅读信息 超文本组织强调了信息与对象之间的联系关系, 符合人们联想式阅读和思维习惯
图6-3 基于本体的文本信息检 索系统的一般模型
领域概念关系本体集 指导主题标引 指导查询表达式的构造本体
主题标引 文档
带所属领域标 识的标引词序 列
相关性判断 查询表达式
表达式构造
指导实体关系标引 实体关系本体
检索结果
用户需 求
查询本体 实体关系标引 相关性匹配 查询本体构造
指导实体关系标引 领域实体关系本体集
6.1.7 超文本模型
超文本技术的优点
1)非线性的组织结构 2)以信息单元为检索对象 3)体现了信息层次关系 4)交互更加友好 5)信息内容丰富多样 6)避免了检索语言的复杂性
6.1.7 超文本模型
超文本技术的缺陷
1)偶然发现 2)失控 3)迷航
6.1.8 多媒体检索
6.1.11 P2P检索
P2P信息检索的目的就是网络中的任意节点都可以提交 检索的请求,然后这些检索通过某种路由机制被路由 到和检索相关的节点上去,存储有和该检索相关信息 的节点将会回应请求,把本地相关的内容以对等的形 式直接传送到请求节点上 与传统的客户端/服务器模式相比,P2P模式具有明显 的优点:
传统布尔检索模型
查询表示
在布尔检索系统中,根据用户提出的检索需求,选 取适当的检索标识,与布尔运算符“与”、“或”、 “非”共同构成与查询相符的检索提问式,也即相 应的布尔表达式
例如 :
1) “飞碟” 2) “飞碟”AND “美国” 3) “飞碟”AND (“中国” OR (NOT “科幻小 说”))
利用向量的内积运算,得到文献向量Di与查询向 量q之间的相似度 Sim(Di,q)=Di•q 简单 存在的一个主要的不足是它忽略了项之间存在一 些相互联系的事实。通常,需要引入一些特别的 方法来改进这个相似度计算公式,使得其能够考 虑到项的相互联系这一重要因素
相似度的计算
内积相似度运算 Sim(Q, D) QTi DT 余弦相似度 Sim(Q, D) QT DT QT QT “距离”相似度运算 L ( D , D ) [ | d d 等等
6.1.4 概率模型
检索问题转化为求条件概率问题 If Prob(R|di, q) > Prob(NR|di, q) then di是检索 结果,否则不是检索结果
6.1.5 全文检索
直接在全文中进行匹配检索 获得的也是全文信息而非文献线索 全文检索技术以其较高的查准率和查全 率被广泛应用于网络信息的检索中 全文检索还提供位置检索功能
传统布尔检索模型
匹配函数
菊池敏典算法
传统布尔检索模型
文献D1=(t1 ,t2 ,not t3) 查询Q=t1 and t2 and not t3
布尔检索示例
传统布尔查询的评价
该模型结构简单、容易实现和快速检索。
传统布尔查询的评价
布尔模型在检索系统的开发与应用中表现出的主 要问题有:
多媒体信息的检索主要是研究如何 快速有效地获取多媒体信息所涉及 的相关技术,它包括多媒体信息的 压缩、组织、检索和展示等 由于多媒体信息与文本信息的组织 方式和表现形式完全不同,所涉及 的检索技术也存在着较大差异
6.1.8 多媒体检索
基于文本的多媒体信息检索方法是多媒体信息 检索最常用的方法 基于内容的多媒体信息检索方法是一种新型的 检索技术,它融合了图像理解、模式识别、计 算机视觉等技术,直接根据描述媒体对象内容 的各种特征进行检索,从数据库中查找到具有 指定特征或含有特定内容的声音、图像、视频 等对象
表达式构造 用户需求
检索结果
6.1.2 布尔模型
布尔检索模型的理论基础是布尔逻辑和 集合理论
6.1.2 布尔模型
布尔逻辑主要内容:命题逻辑与谓 词逻辑 布尔逻辑是数理逻辑的基础部分
利用符号来表示逻辑中的各种概念 建立了一系列的运算法则,利用代数 的方法研究逻辑问题
布尔运算
布尔逻辑运算符:
“与(AND)”、“或(OR)”、“非(NOT)” 运算的定义
传统布尔检索模型
文献表示
将文档表示成一个集合,集合中的每个元素都为一 个二元变量,取值非“0”即“1”,表示该元素所 代表的主题词是否包含在该篇文档之内。若包括在 文档中,则元素取值为1,反之则取0。 给定一个文献集合D,包含m篇文献,分别用 d1,d2,d3……dm表示。再给出一个标引词集合T,包 含n个标引词t1,t2,……,tn。假定对文献集D的描述 完全是基于该标引词集合的,则文献集D中任意一篇 文献di就可以表示为(di1,di2,……,din)
6.1 信息检索技术
6.1.1 检索模型概述
6.1.2 布尔模型
6.1.3 向量空间模型
6.1.4 概率模型
6.1.5 全文检索
6.1.6 语义检索
6.1 信息检索技术(续)
6.1.7 超文本模型
6.1.8 多媒体检索
6.1.9 跨语言检索
6.1.10分布式检索
6.1.9 跨语言检索
跨语言信息检索是指用户以一种语言提 问,检出另一种语言或多种语言描述的 相关信息 跨语言信息检索的主要实现方法有:提 问式翻译法、文献翻译法、提问式—文 献翻译法、中间翻译法、不翻译法、提 问式构造法和音译法等方法
6.1.10分布式检索
分布式信息检索主要是指在分布式的环境中, 利用分布式计算和移动代理等技术从大量的、 异构的信息资源中检索出对用户有用的信息的 过程 这些信息资源在物理上分布于各地,在逻辑上 是一个整体,在数据库结构上存在差异 分布式信息检索主要有基于元搜索引擎、基于 Z39.50、基于XML语言、基于Web服务等模式