信息检索技术的现状与发展
检索
文档表示
建立索引
用户需求
匹配过 程
文档
8
Web 检索的一般模式
9
2. 信息检索的基本方法
在信息检索中,中心问题是如何判断一篇文 档是否与用户的查询条件相关。 通常方法是设计一个评分函数(即相似性计算 函数),对检索过的文档进行评分,然后再根 据评分的高低对这些文档进行排序。 评分函数是信息检索系统是否获得成功的关 键因素之一。
4
续
信息检索(IR)
广义上说,IR是指将信息按照一定的方式组织和存 储起来,并能根据用户的需求查找出其中相关信息 的过程。 “存”——主要指面向来自各种渠道的大量信息资 源而进行的高度组织化的存储; “取”——要求面向随机出现的各种用户信息查询 请求进行高度选择性的查找,并且强调查找的快速 与便利性。 狭义的信息检索一般仅指“取”的过程。对信息用 户而言,后者更为重要。
查询方式不同
查询需求不同
6
IR需求的发展
互联网信息的快速膨胀
1990互联网出现;
有 50 million 个网页; 1997.12 有 320 million个网页; 1999.2 有 800 million个网页; 2000 有 1 billion个网页; …… and growing every day now
5
文档检索与IR区别
信息源数据不同
结构化的数据 ( e.g. relational database ) 半结构或无结构化的数据 ( e.g. free text, web page, etc. ) 采用规则表达式的方法 采用自然语言的方法 面向专家的系统 面向普通用户的系统 ( e.g. SQL ) ( e.g. ―航空母舰的发展历史” )
2 xi yi
i 1 t
dice( X , Y )
x y
i 1 2 i i 1
t
t
2 i
其中:X=(x1, x2, …, xt) , Y=(y1, y2, …, yt) 为两向量, t为其维度。
35
Jaccard coefficient(杰卡德系数)
2 xi yi
i 1 t
p 1/ p i 1
20
续
xm表示第m 个项目在文档 d 中的重要性度量;
1≤p<∞ p表示项目间逻辑关系严格的程度(degree of strictness),取值为1 最松,取值为无穷大最严 p=+∞ p-norm模型等同于经典的布尔模型; 当p较低时,AND式中的一个权值较低的项会使总体值大大降低;OR式中的一个 权值较高的值会使总体值大大提高。
Jaccard ( X , Y )
xi2 yi2 xi yi
i 1 i 1 i 1
t
t
t
其中:X=(x1, x2, …, xt) , Y=(y1, y2, …, yt) 为两向量, t为其维度。
36
2.3 概率模型
检索问题即求条件概率问题 If Prob(R|di, q) > Prob(NR|di, q) then di 是检索结果, else di 不是检索结果
Document Retrieval is defined as the matching of some stated user query against useful parts of free-text records.
Donna Harman et al. , 1996, Document Retrieval, in Survey of the State of the Art in Human Language Technology
21
2.2 向量空间模型
思想: 文档D和查询Q(统称为文本)都可用向量表示 检索过程就是计算文档向量与查询向量之间的 相似度 根据相似度值的大小,对检索结果进行排序 根据检索结果反馈意见,作进一步的相关检索 (Relevance feedback)
22
从文本到向量空间(vector space)
29
tf.idf 加权(续)
Document frequency:含有termi 的文档的数量,记做dfi dfi 越高,意味着termi 在衡量文档之间相似性方面作用 越低,(大部分文档都包含,就没有特色了)。 比如“的”的df值肯定非常高,因此不具有区别性,这 类词称为“非焦点词”; 在前面的例子中,如果该篇谈论乔丹的文章是出自于 “篮球天地”这本期刊,显然该期刊中有很多篇文章 都含有“篮球”这个词,这样,尽管“篮球”这个词 在该篇文章中的tf值很高,但对该篇文章的唯一性方 面没有提供什么帮助。
16
续
对于Term1 OR Term2形式Query,相似度公式为:
x表示Term1在文档dj中的重要程度∈(0,1) y表示Term2在文档dj中的重要程度∈(0,1)
对于Term1 AND Term2形式Query,相似度公式为:
17
相似度计算示例
18
P-norm模型
思想:将上述只包含两个项目(Term)的查询式的 相似度计算进一步拓展为包含m 个项目的查询式 的相似度计算。 补:几种常用的向量范数 1. 向量的∞范数
2)查询表达式易于掌握
―飞碟”AND ―小说”:只能检索出D4,无法显现D1,D2,D3的差异 “飞碟”OR ―小说”:可以检出D1,D2,D4,但无法显现它们的差 异 即:页面之间的重要性无法表示。
15
扩展的布尔检索(Extended Boolean Model)
目的:为了克服布尔模型查询结果的无序性; 思想:将非此即彼的匹配方式改为计算相似度 (Similarity);将所检索文档信息中索引项与用 户查询表达式进行相似度计算,按相关的优先 次序排列查询结果; 常见:MMM模型、Paice模型、P-norm模型
在上面的例子中,如何度量q 跟 d1 还是 d2 更相似些?
25
余弦系数:相似程度的度量方法之一
26
余弦系数计算示例
27
索引项权值的计算(Term Weight)
权值的直观含义:
一个项目对于一个文本的重要程度: 即一个项目在多大 程度上可以将这个文档与其他文档区别开
计算权值的两种简单方式:
37
续
ቤተ መጻሕፍቲ ባይዱ
文档与查询条件的相似性计算是基于概率排序 原理,即通过估计文档与用户查询条件的相关 概率对文档集合进行排序。 概率模型的特点是它以文档与查询条件相关的 概率对文档进行降序排列,以期待得到最好的 检索性能,缺点:
(1)需要假定初始的相关和不相关文档集合; (2)没有考虑文档内部索引检索词的频率信息,检索 词的权重值是二元的; (3)假定索引检索词是互相独立的。
信息检索技术的现状与发展
主要内容
信息检索的概念(Information Retrieval, IR) 信息检索的基本方法
基于内容的检索
布尔模型 向量空间模型 概率模型
基于链接的检索
信息检索系统的性能评测 信息检索的未来发展
2
1. 信息检索(IR)的概念
文档检索
3
续
文档检索定义为在有用的自由文本中寻找与 用户查询相匹配的状态的过程;
11
2.1 布尔模型
查询表达式:由逻辑算子AND, OR, NOT连接若 干“项目”(Term)构成; e.g. 1) ―飞碟” 2) ―飞碟”AND ―小说” 3) ―飞碟”AND (―中国”OR (NOT ―科幻小 说”))
检索/匹配:返回值=1,表示文档符合 User Query要求 返回值=0,表示文档不符合User Query要求
12
布尔检索示例
13
真值表(Truth Table)
P
0 0
1 1
Q
0 1
0 1
NOT P
TRUE TRUE
FALSE FALSE
P AND Q
FALSE FALSE
FALSE TRUE
P OR Q
FALSE TRUE
TRUE TRUE
14
布尔检索的特点
优点
1)简单、速度快
缺点
1)不够精确,不能反映不同“项目”对一个 文档的重要程度的差异 (只提供“有/没有”两个选项) 2)检索结果地位平等,无法排序
23
文档的向量表示
假定有三个项目:
“葡萄”,“美酒”,“夜 光杯”
假定以项目在文本中的 出现次数为项目的权值 葡萄 美酒 夜光杯 T1 T2 T3 d1 2 3 5 d2 3 7 2
q
0
0
2
24
计算向量之间的相似度
向量间相似程度的不同度量方法
Inner product (内积) Cosine coefficient(余弦系数) Dice coefficient: (掷骰子系数) Jaccard coefficient(杰卡德系数)
31
tf.idf 加权(续)
索引项加权:给那些经常出现在一个文档中,而不常出现在 其他文档中的项目以更高的权重,即让“特别的词”从“一 般的词”中凸现出来。 在这个基本精神指导下,出现了许多不同的加权公式
32
tf.idf 加权示例
33
tf.idf 加权示例(续)
34
Dice coefficient: (掷骰子系数)
1995.11
信息表现形式的变化
: hardcopy electronic device 数据访问形式的变化:online data online information service