当前位置：文档之家› 第6章信息检索与服务

第6章信息检索与服务

（2）标引词空间
向量空间模型介绍
T3 D3={ d31,d32, d33 }
D1={d11,d12, d13 } T2
ቤተ መጻሕፍቲ ባይዱ
T1
D2={ d21,d22, d23 } 图三维文献空间
向量空间模型介绍

2. 项权重

（1）词频

越重要的项分配越高的权值可以用词频来作为该项的权重（用tf表示）假设存在一个文献集合，其中大部分的文献都包含了某一项，则说明该项对某一主题的专指度较差，可能就不太重要在设计项权重时，要考虑逆文献频率（用idf表示）
6.1.4 概率模型

基本思路:

给定一个用户提问，则检索系统中存在着一个与该提问相关的理想命中结果集合R(该集合只包括与查询完全相关的文档而不包括其他不相关的文档) 在用户提出检索要求时，检索系统并不知道这个理想结果集合的特性

在检索开始之时就需要对R的特性进行某种猜测

根据初始的猜测，检索系统检索到一个初步的命中结果集合基于相关反馈的原理，需要进行一个逐步求精的过程

（2）文献频率

向量空间模型介绍

2. 项权重

（3）权重的规范化处理

为了抵消由篇幅带来的不同影响，经常要对项权重进行规范化处理在各种规范化方法中，余弦规范是一种常用、有效的方法：tf×idf权重/文献向量的欧氏长度
向量空间模型介绍

3.文献向量与查询向量的匹配

匹配函数

传统布尔检索模型

查询表示

布尔提问式q = t1 and（t2 or not t3） q的主析取范式（t1 and t2 and t3）or（t1 and t2 and not t3）or（t1 and not t2 and not t3） q的简化形式qdnf （1，1，1） or （1，1，0） or （1，0，0）,其中，（1，1，1）、（1，1，0）和（1，0，0）是qdnf的3个合取子项（合取子项可用符号qcc表示）
i i 1
i i i 2 i 2
N
p
1
2
1t
2t
|p ]
1 p
向量空间模型的评价
优点
简单，功能却非常强大
能将非结构化的文献表示成向量的形式，使得各种数学处理成为可能模型的检索效果和布尔检索模型比起来，要好得多
不足
改进
忽略项之间存在的相互联系，必然使得检索效果产生极大的偏差传统向量处理模型不能处理布尔表达等结构化查询
单汉字(主键字)
6.1.5 全文检索

以倒排表模型为基础的全文检索有检索速度快，与原文无关的特点其缺点主要包括两个方面：

首先，空间和时间效率低；其次，当文本集合不断变化时，需要不断重建全文索引

第一个问题通常采用压缩技术和更加高效的编码策略加以解决
6.1.5 全文检索

全文检索模型中的查询表示

通常采用布尔模型的查询表示方式
6.1.5 全文检索

全文检索模型中的匹配方式

检索的匹配算法一般是根据索引结构而研制的检索速度取决于匹配算法，一个优秀的全文检索算法，在百兆级的数据库中，检索速度应该在秒级水平，否则，不能算是一个好的全文检索算法

Lucene
6.1.5 全文检索

全文检索技术指标
指导查询本体的构造本体
6.1.7 超文本模型

所谓超文本，既是一种信息的组织形式，也是一种信息检索技术超文本不是单纯以线性方式存储文本，而是附加了一种非线性结构来组织信息，即在文本中设置若干超级链接（简称超链）指向相关位置，以确保在顺序阅读文献的同时，还可以顺着超级链接的指引“跳跃”阅读信息超文本组织强调了信息与对象之间的联系关系，符合人们联想式阅读和思维习惯
图6-3 基于本体的文本信息检索系统的一般模型
领域概念关系本体集指导主题标引指导查询表达式的构造本体
主题标引文档
带所属领域标识的标引词序列
相关性判断查询表达式
表达式构造
指导实体关系标引实体关系本体
检索结果
用户需求
查询本体实体关系标引相关性匹配查询本体构造
指导实体关系标引领域实体关系本体集
6.1.7 超文本模型

超文本技术的优点

1）非线性的组织结构 2）以信息单元为检索对象 3）体现了信息层次关系 4）交互更加友好 5）信息内容丰富多样 6）避免了检索语言的复杂性
6.1.7 超文本模型

超文本技术的缺陷

1）偶然发现 2）失控 3）迷航
6.1.8 多媒体检索
6.1.11 P2P检索

P2P信息检索的目的就是网络中的任意节点都可以提交检索的请求，然后这些检索通过某种路由机制被路由到和检索相关的节点上去，存储有和该检索相关信息的节点将会回应请求，把本地相关的内容以对等的形式直接传送到请求节点上与传统的客户端／服务器模式相比，P2P模式具有明显的优点：
传统布尔检索模型

查询表示

在布尔检索系统中，根据用户提出的检索需求，选取适当的检索标识，与布尔运算符“与”、“或”、 “非”共同构成与查询相符的检索提问式，也即相应的布尔表达式

例如 :

1) “飞碟” 2) “飞碟”AND “美国” 3) “飞碟”AND (“中国” OR (NOT “科幻小说”))
利用向量的内积运算，得到文献向量Di与查询向量q之间的相似度 Sim(Di,q)=Di•q 简单存在的一个主要的不足是它忽略了项之间存在一些相互联系的事实。通常，需要引入一些特别的方法来改进这个相似度计算公式，使得其能够考虑到项的相互联系这一重要因素
相似度的计算

内积相似度运算 Sim(Q, D) QTi DT 余弦相似度 Sim(Q, D) QT DT QT QT “距离”相似度运算 L ( D , D ) [ | d d 等等
6.1.4 概率模型
检索问题转化为求条件概率问题 If Prob(R|di, q) > Prob(NR|di, q) then di是检索结果，否则不是检索结果
6.1.5 全文检索

直接在全文中进行匹配检索获得的也是全文信息而非文献线索全文检索技术以其较高的查准率和查全率被广泛应用于网络信息的检索中全文检索还提供位置检索功能
传统布尔检索模型

匹配函数

菊池敏典算法
传统布尔检索模型

文献D1=(t1 ,t2 ,not t3) 查询Q=t1 and t2 and not t3
布尔检索示例
传统布尔查询的评价

该模型结构简单、容易实现和快速检索。
传统布尔查询的评价

布尔模型在检索系统的开发与应用中表现出的主要问题有：

多媒体信息的检索主要是研究如何快速有效地获取多媒体信息所涉及的相关技术，它包括多媒体信息的压缩、组织、检索和展示等由于多媒体信息与文本信息的组织方式和表现形式完全不同，所涉及的检索技术也存在着较大差异
6.1.8 多媒体检索

基于文本的多媒体信息检索方法是多媒体信息检索最常用的方法基于内容的多媒体信息检索方法是一种新型的检索技术，它融合了图像理解、模式识别、计算机视觉等技术，直接根据描述媒体对象内容的各种特征进行检索，从数据库中查找到具有指定特征或含有特定内容的声音、图像、视频等对象
表达式构造用户需求
检索结果
6.1.2 布尔模型

布尔检索模型的理论基础是布尔逻辑和集合理论
6.1.2 布尔模型

布尔逻辑主要内容:命题逻辑与谓词逻辑布尔逻辑是数理逻辑的基础部分

利用符号来表示逻辑中的各种概念建立了一系列的运算法则，利用代数的方法研究逻辑问题
布尔运算

布尔逻辑运算符:

“与（AND）”、“或(OR)”、“非(NOT)” 运算的定义
传统布尔检索模型

文献表示

将文档表示成一个集合，集合中的每个元素都为一个二元变量，取值非“0”即“1”，表示该元素所代表的主题词是否包含在该篇文档之内。若包括在文档中，则元素取值为1，反之则取0。给定一个文献集合D，包含m篇文献，分别用 d1,d2,d3……dm表示。再给出一个标引词集合T，包含n个标引词t1,t2,……,tn。假定对文献集D的描述完全是基于该标引词集合的,则文献集D中任意一篇文献di就可以表示为（di1,di2,……,din）
6.1 信息检索技术

6.1.1 检索模型概述
6.1.2 布尔模型
6.1.3 向量空间模型
6.1.4 概率模型
6.1.5 全文检索
6.1.6 语义检索
6.1 信息检索技术(续)

6.1.7 超文本模型
6.1.8 多媒体检索
6.1.9 跨语言检索
6.1.10分布式检索
6.1.9 跨语言检索

跨语言信息检索是指用户以一种语言提问，检出另一种语言或多种语言描述的相关信息跨语言信息检索的主要实现方法有：提问式翻译法、文献翻译法、提问式—文献翻译法、中间翻译法、不翻译法、提问式构造法和音译法等方法
6.1.10分布式检索

分布式信息检索主要是指在分布式的环境中，利用分布式计算和移动代理等技术从大量的、异构的信息资源中检索出对用户有用的信息的过程这些信息资源在物理上分布于各地，在逻辑上是一个整体，在数据库结构上存在差异分布式信息检索主要有基于元搜索引擎、基于 Z39.50、基于XML语言、基于Web服务等模式

e商务文档

第6章信息检索与服务

相关文档推荐：

e商务文档

第6章 信息检索与服务

相关文档推荐：

第6章信息检索与服务