当前位置:文档之家› 信息检索模型

信息检索模型

( microcomputer??/de,ti,ab OR personal computer/ti,ab ) AND PY=1999 AND(LA=EN OR FR)AND DT=Serial
2013-9-13
25
信息检索模型
其他信息检索模型
2013-9-13
13
信息存储与检索
概率模型
• 对我们的初始估计R集合相关的概率赋予初始值:
P( K i | R) 0.5 ni P( K i | R) N
ni为包含标引词Ki的文献数目;N为集合中的文献总 数。 • 初始值确定后,根据与查询Q相关的大小进行初步排序, 取前若干个文档作为相关查询集合。之后通过如下方 法进行改进。
2013-9-13 2 信息检索模型
信息检索模型概述
• 1、信息检索模型的发展历史 • 分为以下几个阶段: ①20世纪50年代,基于数学的信息检索模型。 ②20世纪60年代,Bar-Hillel提出了将布尔逻辑思想应用到 计算机信息检索当中的可能性。 ③经典的信息检索模型:该模型是在以往模型的基础上发 展起来的。 ④20世纪80年代,以逻辑学专门技术和关系学的信息科学 技术相结合而形成的。被称为“非经典信息检索模型”。
2013-9-13
23
信息检索模型
其他信息检索模型
• 2、限词检索模型
限词检索(range)是通过限制检索范围,达到优化 检索结果的方法。主要的限词检索有以下几种:进行字段 检索、使用限制符、使用范围符号、使用限制指令等。 ①字段检索。 把检索词限定在某个或某些字段中,如果记录的相应 字段中含有输入的检索词则为命中记录,否则检不中。 如:查找微型计算机和个人计算机方面的文章,并且 要求“微型机”一次出现在叙词字段、标题字段或文摘字 段中,“个人计算机”一词出现在标题字段或文摘字段中, 则检索式可写为:
Sim( D j , Q)
2013-9-13
P( R | D j ) P( R | D j )

P( D j | R) P( R) P( D j | R) P( R)
信息检索模型
11
概率模型
• Sim(Dj,Q)可以近似的表示为:Sim( D j , Q)
P( D j | R) P( D j | R)
2013-9-13 17 信息检索模型
情景理论模型
• 1、情景理论的意义
• 基于情景理论上的信息检索模型是非经典的信息检索模型。 • 情景是指不同的认知主体可以从同一信息源中选择不同的 信息,当然也取决于主体所意识到的程度。 例如:如果一名学生(人作为主体)意识到圆的面积A和 其半径r之间的关系是A=πr2, 并且知道圆的面积,那么该 主体就能计算出圆的半径。
2013-9-13 12 信息检索模型
概率模型
• 举例:
查询为:信息/检索/教程/ 相关文档集合中所有term的概率为:
term R=1 信息 0.8 检索 0.9 教材 0.3 教程 0.32 课件 0.15
R=0
0.3
0.1
0.35
0.33
0.10
文档D1:检索/课件 P(D1|R=1)=(1-0.8)*0.9*(1-0.3)*(1-0.32)*0.15 P(D1|R=0)=(1-0.3)*0.1*(1-0.35)*(1-0.33)*0.10 P(D1|R=1)/P(D1|R=0)=4.216
• 取对数,在相同背景下,忽略对所有因子保持恒定不变的 因子,则有
Sim( D j , Q) Wiq Wij (log
i 1
P( K i | R) 1 P( K i | R) log ) 1 P( K i | R) P( K i | R)
这是概率模型中排序计算的主要表达式。
第二章信息检索模型
2013-9-13
信息检索模型
1
信息检索
• 信息检索,是一门研究从一定规模的文档库中找 出满足用户需求的信息的学问,它指的是对非结 构化或半结构化信息的检索,半结构化信息检索 人们通常称为文本信息检索,而非结构化信息检 索一般指多媒体信息检索。 • 信息检索的本质:将用户的信息需求与信息资源 进行匹配,将匹配结果返回给用户。 • 信息检索的基本原理:用户通过一系列关键词来 阐明自己的信息需求,信息检索系统则检索与用 户查询最为匹配的文献,同时借助某种相关性指 标对检索出的文献进行排序。
2013-9-13 21 信息检索模型
其他信息检索模型
③(N)算符(NEAR)表示两个检索词必须相连,不 得插入其他词,但词序可以颠倒。 ④(nN)算符(nNEAR)表示两个检索词中间可以插 入n个词,且词序可以颠倒。 ⑤(F)算符(FIELD)表示两个检索词必须同时出现 在同一个字段内,但两词的词序和中间插入的词数不限。 ⑥(S)算符(SUBFIELD)表示两个检索词必须出现 在同一个子字段中,但两词的词序和所在的字段不限。 ⑦(C)算符(CITATION)表示两个检索词必须出现 在同一记录中,但两词的词序和所在的字段不限。
2013-9-13
20
信息存储与检索
其他信息检索模型
• 1、位置检索模型
位置检索模型可以要求检索词以用户所规定的相对位 置出现。 不同的联机检索系统使用的位置算符的种类和功能有 时不完全相同。常用的算符有以下8种: ①(W)算符(WITH)表示两个检索词紧挨着,词 序不能颠倒,中间不得插入其他词、字母或者代码,但是 允许有空格或者标点符号,也可以用()表示。 ②(nW)算符(nWORD)表示两个检索词中间可插 入n个词,但它们之间的顺序不可颠倒。
2013-9-13 4
信息检索模型
2013-9-13
5
信息检索模型
②从传统应用上来分,又可分为经典模型和非经典 模型
2013-9-13
6
信息检索模型
概率模型
• • 概率论模型,亦称为二值独立检索模型。 概率模型是一种基于概率论原理的用以解决相对不确 定性的信息检索的信息检索模型。 • 信息检索的概率模型是信息检索的经典模型,在概率 的框架下解决IR的问题,这种检索模型是基于一个文件与 提问式的相关度是高于还是低于非相关度的概率来进行文 档检索的检索方法。
2013-9-13
7
信息检索模型
概率模型
• 1、概率模型的基本思想 • 用户提出了查询,就有一个由相关文档构成 的集合,该集合只包括与查询完全相关的文档而 不包括其他不相关的文档,称该集合为理想结果 集合,记为R。如果知道R的特征,就可以找到所 有的相关文档,排除所有的无关文档。因此,可 以把查询看成一个寻找R的特征的过程。
• 也可以为:
ni N P( K i | R) V 1 Vi ni N P( K i | R) N V 1 ni Vi
2013-9-13 16 信息检索模型
概率模型
• 5、概率模型的优缺点
优点:文档可以按照他们相关概率递减的顺序来排序, 该模型可以通过反复反馈结果和用户需求,使结果得到很 好的调整,相对会合理得多。 虽然这种基于贝叶斯决策的自适应模型有坚实的理论 基础,但是其自身还是有一定的局限性,体现在: (1)索引词权值计算方法没有考虑到词频加权因素; (2)沿用了索引词之间相互独立的基本假设; (3)开始时需要猜想把文档分为相关和不相关的两个 集合,过程比较繁琐。
2013-9-13 24 信息检索模型
其他信息检索模型
microcomputer??/de,ti,ab OR personal computer/ti,ab
如果是要查找liu jun写的文章,可以输入检索词 au=liu jun ②使用限制符 用表示语种、文献类型、出版国家、出版年代等的字段 标示符来限制检索范围。 如:要查找1999年出版的英文或法文的微型机或个人 计算机方面的期刊,则检索式可写为:
• 因为经典的信息检索模型中假设标引词之间无相关关系, 是独立的,则Sim(Dj,Q) 可以表示为:
Sim( D , Q)
j
t
g i ( D j ) 1 g i ( D j ) 1
P( K i | R) g i ( D j ) 0 P( K i | R) P( K i | R) g i ( D j ) 0 P( K i | R)
Vi V n V P( K i | R) i i N V P( K i | R)
这样就形成了一个检索和学习的迭代过程,也就是概率检索 模型。
2013-9-13 15 信息检索模型
概率模型
• 对较小的V和Vi,如V=1,Vi=0,上述计算会出现问题, 所以做以下改进:
Vi 0.5 V 1 n V 0.5 P( K i | R) i i N V 1 P( K i | R)
2013-9-13 14 信息检索模型
概率模型
用V表示概率模型初步检出并经过排序的文档子集, Vi表 示V中包含索引词ki 的文档集合。根据V和Vi中包含标引词Ki 的文献数目来改进初始值,通过如下假设完成:
• 根据已检索出的文献中标引词Ki的分布来估计的 P( K i | R)
• 根据未检索出的文献都是不相关的来估计 P( K i | R)
2013-9-13
19
信息存储与检索
情景理论模型
• 信息同表面意思是两个不同的概念,因为信息所传递的信 息与表面意思是不一样的,通常信号所包含的信息要远远 超过它的表面意思。 • 如:“小李在家” • 表面意思是小李在家,尽管这句话暗含了小李没有上班, 通过信号传递的信息包含这两方面的意思。这就是信息同 表面意思的不同。 • 信息是产生知识的事物,以及我们从信号传递中所获得的 一切东西。
估计R的特征 进行检索 用户判断
2013-9-13
9
Hale Waihona Puke 信息检索模型概率模型
相关主题