当前位置：文档之家› 信息检索技术的现状与发展

信息检索技术的现状与发展

检索
文档表示
建立索引
用户需求
匹配过程
文档
8
Web 检索的一般模式
9
2. 信息检索的基本方法

在信息检索中，中心问题是如何判断一篇文档是否与用户的查询条件相关。通常方法是设计一个评分函数(即相似性计算函数)，对检索过的文档进行评分，然后再根据评分的高低对这些文档进行排序。评分函数是信息检索系统是否获得成功的关键因素之一。
4
续

信息检索（IR）

广义上说，IR是指将信息按照一定的方式组织和存储起来，并能根据用户的需求查找出其中相关信息的过程。 “存”——主要指面向来自各种渠道的大量信息资源而进行的高度组织化的存储； “取”——要求面向随机出现的各种用户信息查询请求进行高度选择性的查找，并且强调查找的快速与便利性。狭义的信息检索一般仅指“取”的过程。对信息用户而言，后者更为重要。

查询方式不同

查询需求不同

6
IR需求的发展

互联网信息的快速膨胀
1990互联网出现；
有 50 million 个网页； 1997.12 有 320 million个网页； 1999.2 有 800 million个网页； 2000 有 1 billion个网页； …… and growing every day now
5
文档检索与IR区别

信息源数据不同

结构化的数据（ e.g. relational database ）半结构或无结构化的数据（ e.g. free text, web page, etc. ）采用规则表达式的方法采用自然语言的方法面向专家的系统面向普通用户的系统（ e.g. SQL ）（ e.g. ―航空母舰的发展历史” ）
2 xi yi
i 1 t
dice( X , Y )
x y
i 1 2 i i 1
t
t
2 i
其中：X=(x1, x2, …, xt) , Y=(y1, y2, …, yt) 为两向量， t为其维度。
35
Jaccard coefficient（杰卡德系数）
2 xi yi
i 1 t
p 1/ p i 1
20
续
xm表示第m 个项目在文档 d 中的重要性度量；
1≤p<∞ p表示项目间逻辑关系严格的程度(degree of strictness)，取值为1 最松，取值为无穷大最严 p=+∞ p-norm模型等同于经典的布尔模型；当p较低时，AND式中的一个权值较低的项会使总体值大大降低；OR式中的一个权值较高的值会使总体值大大提高。
Jaccard ( X , Y )
xi2 yi2 xi yi
i 1 i 1 i 1
t
t
t
其中：X=(x1, x2, …, xt) , Y=(y1, y2, …, yt) 为两向量， t为其维度。
36
2.3 概率模型
检索问题即求条件概率问题 If Prob(R|di, q) > Prob(NR|di, q) then di 是检索结果， else di 不是检索结果
Document Retrieval is defined as the matching of some stated user query against useful parts of free-text records.
Donna Harman et al. , 1996, Document Retrieval, in Survey of the State of the Art in Human Language Technology
21
2.2 向量空间模型
思想：文档D和查询Q(统称为文本)都可用向量表示检索过程就是计算文档向量与查询向量之间的相似度根据相似度值的大小，对检索结果进行排序根据检索结果反馈意见，作进一步的相关检索（Relevance feedback）
22
从文本到向量空间（vector space）
29
tf.idf 加权（续）
Document frequency：含有termi 的文档的数量，记做dfi dfi 越高，意味着termi 在衡量文档之间相似性方面作用越低，(大部分文档都包含，就没有特色了)。比如“的”的df值肯定非常高，因此不具有区别性，这类词称为“非焦点词”；在前面的例子中，如果该篇谈论乔丹的文章是出自于 “篮球天地”这本期刊，显然该期刊中有很多篇文章都含有“篮球”这个词，这样，尽管“篮球”这个词在该篇文章中的tf值很高，但对该篇文章的唯一性方面没有提供什么帮助。
16
续
对于Term1 OR Term2形式Query，相似度公式为:
x表示Term1在文档dj中的重要程度∈(0,1) y表示Term2在文档dj中的重要程度∈(0,1)
对于Term1 AND Term2形式Query，相似度公式为:
17
相似度计算示例
18
P-norm模型
思想：将上述只包含两个项目(Term)的查询式的相似度计算进一步拓展为包含m 个项目的查询式的相似度计算。补：几种常用的向量范数 1. 向量的∞范数
2）查询表达式易于掌握
―飞碟”AND ―小说”：只能检索出D4，无法显现D1,D2,D3的差异 “飞碟”OR ―小说”：可以检出D1,D2,D4，但无法显现它们的差异即：页面之间的重要性无法表示。
15
扩展的布尔检索（Extended Boolean Model）

目的：为了克服布尔模型查询结果的无序性；思想：将非此即彼的匹配方式改为计算相似度 (Similarity)；将所检索文档信息中索引项与用户查询表达式进行相似度计算，按相关的优先次序排列查询结果；常见：MMM模型、Paice模型、P-norm模型
在上面的例子中，如何度量q 跟 d1 还是 d2 更相似些？
25
余弦系数：相似程度的度量方法之一
26
余弦系数计算示例
27
索引项权值的计算（Term Weight）

权值的直观含义：
一个项目对于一个文本的重要程度: 即一个项目在多大程度上可以将这个文档与其他文档区别开

计算权值的两种简单方式：
37
续

ቤተ መጻሕፍቲ ባይዱ

文档与查询条件的相似性计算是基于概率排序原理，即通过估计文档与用户查询条件的相关概率对文档集合进行排序。概率模型的特点是它以文档与查询条件相关的概率对文档进行降序排列，以期待得到最好的检索性能，缺点:

(1)需要假定初始的相关和不相关文档集合; (2)没有考虑文档内部索引检索词的频率信息，检索词的权重值是二元的; (3)假定索引检索词是互相独立的。
信息检索技术的现状与发展
主要内容

信息检索的概念（Information Retrieval, IR）信息检索的基本方法

基于内容的检索

布尔模型向量空间模型概率模型

基于链接的检索

信息检索系统的性能评测信息检索的未来发展
2
1. 信息检索(IR)的概念

文档检索
3
续
文档检索定义为在有用的自由文本中寻找与用户查询相匹配的状态的过程；
11
2.1 布尔模型
查询表达式：由逻辑算子AND, OR, NOT连接若干“项目”（Term）构成； e.g. 1) ―飞碟” 2) ―飞碟”AND ―小说” 3) ―飞碟”AND (―中国”OR (NOT ―科幻小说”))
检索/匹配：返回值=1，表示文档符合 User Query要求返回值=0，表示文档不符合User Query要求
12
布尔检索示例
13
真值表（Truth Table）
P
0 0
1 1
Q
0 1
0 1
NOT P
TRUE TRUE
FALSE FALSE
P AND Q
FALSE FALSE
FALSE TRUE
P OR Q
FALSE TRUE
TRUE TRUE
14
布尔检索的特点
优点
1）简单、速度快
缺点
1）不够精确，不能反映不同“项目”对一个文档的重要程度的差异（只提供“有/没有”两个选项） 2）检索结果地位平等，无法排序
23
文档的向量表示

假定有三个项目：
“葡萄”，“美酒”，“夜光杯”

假定以项目在文本中的出现次数为项目的权值葡萄美酒夜光杯 T1 T2 T3 d1 2 3 5 d2 3 7 2
q
0
0
2
24
计算向量之间的相似度

向量间相似程度的不同度量方法

Inner product （内积） Cosine coefficient（余弦系数） Dice coefficient: （掷骰子系数） Jaccard coefficient（杰卡德系数）
31
tf.idf 加权（续）
索引项加权：给那些经常出现在一个文档中，而不常出现在其他文档中的项目以更高的权重，即让“特别的词”从“一般的词”中凸现出来。在这个基本精神指导下，出现了许多不同的加权公式
32
tf.idf 加权示例
33
tf.idf 加权示例（续）
34
Dice coefficient: （掷骰子系数）
1995.11

信息表现形式的变化
: hardcopy electronic device 数据访问形式的变化：online data online information service

e商务文档

信息检索技术的现状与发展

相关文档推荐：