当前位置：文档之家› 信息检索模型

信息检索模型

（ microcomputer？？/de，ti，ab OR personal computer/ti，ab ） AND PY=1999 AND（LA=EN OR FR）AND DT=Serial
2013-9-13
25
信息检索模型
其他信息检索模型
2013-9-13
13
信息存储与检索
概率模型
• 对我们的初始估计R集合相关的概率赋予初始值：
P( K i | R) 0.5 ni P( K i | R) N
ni为包含标引词Ki的文献数目；N为集合中的文献总数。 • 初始值确定后，根据与查询Q相关的大小进行初步排序，取前若干个文档作为相关查询集合。之后通过如下方法进行改进。
2013-9-13 2 信息检索模型
信息检索模型概述
• 1、信息检索模型的发展历史 • 分为以下几个阶段： ①20世纪50年代，基于数学的信息检索模型。 ②20世纪60年代，Bar-Hillel提出了将布尔逻辑思想应用到计算机信息检索当中的可能性。 ③经典的信息检索模型：该模型是在以往模型的基础上发展起来的。 ④20世纪80年代，以逻辑学专门技术和关系学的信息科学技术相结合而形成的。被称为“非经典信息检索模型”。
2013-9-13
23
信息检索模型
其他信息检索模型
• 2、限词检索模型
限词检索（range）是通过限制检索范围，达到优化检索结果的方法。主要的限词检索有以下几种：进行字段检索、使用限制符、使用范围符号、使用限制指令等。 ①字段检索。把检索词限定在某个或某些字段中，如果记录的相应字段中含有输入的检索词则为命中记录，否则检不中。如：查找微型计算机和个人计算机方面的文章，并且要求“微型机”一次出现在叙词字段、标题字段或文摘字段中，“个人计算机”一词出现在标题字段或文摘字段中，则检索式可写为：
Sim( D j , Q)
2013-9-13
P( R | D j ) P( R | D j )

P( D j | R) P( R) P( D j | R) P( R)
信息检索模型
11
概率模型
• Sim(Dj,Q)可以近似的表示为：Sim( D j , Q)
P( D j | R) P( D j | R)
2013-9-13 17 信息检索模型
情景理论模型
• 1、情景理论的意义
• 基于情景理论上的信息检索模型是非经典的信息检索模型。 • 情景是指不同的认知主体可以从同一信息源中选择不同的信息，当然也取决于主体所意识到的程度。例如：如果一名学生（人作为主体）意识到圆的面积A和其半径r之间的关系是A=πr2，并且知道圆的面积，那么该主体就能计算出圆的半径。
2013-9-13 12 信息检索模型
概率模型
• 举例：
查询为：信息/检索/教程/ 相关文档集合中所有term的概率为：
term R=1 信息 0.8 检索 0.9 教材 0.3 教程 0.32 课件 0.15
R=0
0.3
0.1
0.35
0.33
0.10
文档D1：检索/课件 P(D1|R=1)=(1-0.8)*0.9*(1-0.3)*(1-0.32)*0.15 P(D1|R=0)=(1-0.3)*0.1*(1-0.35)*(1-0.33)*0.10 P(D1|R=1)/P(D1|R=0)=4.216
• 取对数，在相同背景下，忽略对所有因子保持恒定不变的因子，则有
Sim( D j , Q) Wiq Wij (log
i 1
P( K i | R) 1 P( K i | R) log ) 1 P( K i | R) P( K i | R)
这是概率模型中排序计算的主要表达式。
第二章信息检索模型
2013-9-13
信息检索模型
1
信息检索
• 信息检索，是一门研究从一定规模的文档库中找出满足用户需求的信息的学问，它指的是对非结构化或半结构化信息的检索，半结构化信息检索人们通常称为文本信息检索，而非结构化信息检索一般指多媒体信息检索。 • 信息检索的本质：将用户的信息需求与信息资源进行匹配，将匹配结果返回给用户。 • 信息检索的基本原理：用户通过一系列关键词来阐明自己的信息需求，信息检索系统则检索与用户查询最为匹配的文献，同时借助某种相关性指标对检索出的文献进行排序。
2013-9-13 21 信息检索模型
其他信息检索模型
③（N）算符（NEAR）表示两个检索词必须相连，不得插入其他词，但词序可以颠倒。 ④（nN）算符（nNEAR）表示两个检索词中间可以插入n个词，且词序可以颠倒。 ⑤（F）算符（FIELD）表示两个检索词必须同时出现在同一个字段内，但两词的词序和中间插入的词数不限。 ⑥（S）算符（SUBFIELD）表示两个检索词必须出现在同一个子字段中，但两词的词序和所在的字段不限。 ⑦（C）算符（CITATION）表示两个检索词必须出现在同一记录中，但两词的词序和所在的字段不限。
2013-9-13
20
信息存储与检索
其他信息检索模型
• 1、位置检索模型
位置检索模型可以要求检索词以用户所规定的相对位置出现。不同的联机检索系统使用的位置算符的种类和功能有时不完全相同。常用的算符有以下8种： ①（W）算符（WITH）表示两个检索词紧挨着，词序不能颠倒，中间不得插入其他词、字母或者代码，但是允许有空格或者标点符号，也可以用（）表示。 ②（nW）算符（nWORD）表示两个检索词中间可插入n个词，但它们之间的顺序不可颠倒。
2013-9-13 4
信息检索模型
2013-9-13
5
信息检索模型
②从传统应用上来分，又可分为经典模型和非经典模型
2013-9-13
6
信息检索模型
概率模型
• • 概率论模型，亦称为二值独立检索模型。概率模型是一种基于概率论原理的用以解决相对不确定性的信息检索的信息检索模型。 • 信息检索的概率模型是信息检索的经典模型，在概率的框架下解决IR的问题，这种检索模型是基于一个文件与提问式的相关度是高于还是低于非相关度的概率来进行文档检索的检索方法。
2013-9-13
7
信息检索模型
概率模型
• 1、概率模型的基本思想 • 用户提出了查询，就有一个由相关文档构成的集合，该集合只包括与查询完全相关的文档而不包括其他不相关的文档，称该集合为理想结果集合，记为R。如果知道R的特征，就可以找到所有的相关文档，排除所有的无关文档。因此，可以把查询看成一个寻找R的特征的过程。
• 也可以为：
ni N P( K i | R) V 1 Vi ni N P( K i | R) N V 1 ni Vi
2013-9-13 16 信息检索模型
概率模型
• 5、概率模型的优缺点
优点：文档可以按照他们相关概率递减的顺序来排序，该模型可以通过反复反馈结果和用户需求，使结果得到很好的调整，相对会合理得多。虽然这种基于贝叶斯决策的自适应模型有坚实的理论基础，但是其自身还是有一定的局限性，体现在：（1）索引词权值计算方法没有考虑到词频加权因素；（2）沿用了索引词之间相互独立的基本假设；（3）开始时需要猜想把文档分为相关和不相关的两个集合，过程比较繁琐。
2013-9-13 24 信息检索模型
其他信息检索模型
microcomputer？？/de，ti，ab OR personal computer/ti，ab
如果是要查找liu jun写的文章，可以输入检索词 au=liu jun ②使用限制符用表示语种、文献类型、出版国家、出版年代等的字段标示符来限制检索范围。如：要查找1999年出版的英文或法文的微型机或个人计算机方面的期刊，则检索式可写为：
• 因为经典的信息检索模型中假设标引词之间无相关关系，是独立的，则Sim(Dj,Q) 可以表示为：
Sim( D , Q)
j
t
g i ( D j ) 1 g i ( D j ) 1
P( K i | R) g i ( D j ) 0 P( K i | R) P( K i | R) g i ( D j ) 0 P( K i | R)
Vi V n V P( K i | R) i i N V P( K i | R)
这样就形成了一个检索和学习的迭代过程，也就是概率检索模型。
2013-9-13 15 信息检索模型
概率模型
• 对较小的V和Vi，如V=1，Vi=0，上述计算会出现问题，所以做以下改进：
Vi 0.5 V 1 n V 0.5 P( K i | R) i i N V 1 P( K i | R)
2013-9-13 14 信息检索模型
概率模型
用V表示概率模型初步检出并经过排序的文档子集, Vi表示V中包含索引词ki 的文档集合。根据V和Vi中包含标引词Ki 的文献数目来改进初始值，通过如下假设完成：
• 根据已检索出的文献中标引词Ki的分布来估计的 P( K i | R)
• 根据未检索出的文献都是不相关的来估计 P( K i | R)
2013-9-13
19
信息存储与检索
情景理论模型
• 信息同表面意思是两个不同的概念，因为信息所传递的信息与表面意思是不一样的，通常信号所包含的信息要远远超过它的表面意思。 • 如：“小李在家” • 表面意思是小李在家，尽管这句话暗含了小李没有上班，通过信号传递的信息包含这两方面的意思。这就是信息同表面意思的不同。 • 信息是产生知识的事物，以及我们从信号传递中所获得的一切东西。
估计R的特征进行检索用户判断
2013-9-13
9
Hale Waihona Puke 信息检索模型概率模型

e商务文档

信息检索模型

相关文档推荐：