信息检索导论第十一章
称为A条件下B的条件概率,记作P(B|A)
• 乘法公式:
P(AB)=P(A)P(B|A) P(A1A2…An)=P(A1)P(A2|A1)...P(An|A1…An-1)
• 全概率公式:A1A2…An是整个样本空间的一个 n 划分 P( B )= P( A ) P( B | A )
i 1
i
i
P( A j | B )
11.3.3 实际中的概率估计方法
一、评估不相关文档有关的量
二、评估相关文档有关的量
1、已知某些相关文档,利用这些已知相关文档中的词项出现频率来对 pt进行估计。 2、 Croft和Harper(1979)在他们的组合匹配模型(combination match model)中提出了利用常数来估计pt的方法。 3. Greiff (1998)pt会随dft的增长而增长
P(AC)=P(A)P(C),P(BC)=P(B)P(C), P(ABC)=P(A)P(B)P(C),则 称A、B、C独立
多事件独立:两两独立、三三独立、四四独立….
随机变量:若随机试验的各种可能
的结果都能用一个 变量的取值(或范 围)来表示,则称这个变量为随机变 量,常用X、Y、Z来表示 (离散型随机变量): (连续型随机变量)
11.3.4 基于概率的相关反馈方法
11.4 概率模型的相关评论及扩展
11.4.1 概率模型的评论 在BIM模型中,假设:
11.4.2 词项之间的树型依赖
11.4.3 果存在相关性判断结果
11.4.4 IR中的贝叶斯网络方法
贝叶斯网络是通过有向图来表示不同随机变量之间的概率依赖关系,对 于任意有向无环图,已经发展出多种在节点之间传递影响度的复杂算法, 可以基于任意知识在图上面进行学习和推理。Turtle和Croft利用了一 个复杂的图模型来对文档和信息需求之间的复杂依赖关系进行建模。
随机试验:可在相同条件下重复进
行;试验可能结果不止一个,但能确 定所有的可能结果;一次试验之前无 法确定具体是哪种结果出现。
随机事件:随机试验中可能出现或
可能不出现的情况叫“随机事件”
概率:直观上来看,事件A的概率是指事件A发生的可能
性,记为P(A)
条件概率:已知事件A发生的条件下,事件B发生的概率
11.3.2 理论上的概率估计方法
对于输出结果为类别型(比如词项出现或不 出现两个类别)的试验来说,往往可以通过事件发生的次数除以试验的总 次数来从数据中估计出事件的概率。这被称为事件的相对频率。由于相 对频率使得观察数据出现的概率最大,所以这种估计称为MLE(最大似 然估计)。但是,如果我们只是简单地使用MLE,那么在观察数据中出现 过的事件的概率估计值总是非常高,而那些没有在观察数据中出现的事件 的相对频率则为0,这不仅低估了这些事件的概率值,往往也损害了模型本 身,因为0乘以任何数得0。在减少出现事件的概率估计值的同时提高未出 现事件的概率估计值的方法称为平滑(smoothing)。一种最简单的平 滑方法就是对每个观察到的事件的数目都加上一个数α。这样得到的伪数目 相当于在所有词汇表上使用了均匀分布作为一个贝叶斯先验
11.2 概率排序原理
对查询q和文档集中的一篇文档d,假定变量 Rd,q代表d和查询q是否相关,当文档d和查询q 相关时Rd,q的取值为1,不相关时Rd,q的取值为 0。在不造成上下文歧义的情况下,我们将Rd,q 简记为R。 于是,可以利用概率模型来估计每篇文档和需求 的相关概率P(R=1|d,q),然后对结果进行次序。 这就是PRP。
词项
文档集网络
模型
查询网络
概念:文档中出现的词项的某种基 于同义词的扩展形式
基于贝叶斯网络的系统能够支持大规模信息的高效检索,是 麻省大学建立的InQuery文本检索系统的基础。在TREC评 测中,该系统也取得了很好的效果,并且一度商业化。 另一方面,为了进行参数估计和计算,上述模型仍然使用了 许多近似和独立性假设。该模型的后续工作已经很多,但是 需要指出的是,该模型实际上建立于现代贝叶斯网络理论的 早期阶段,目前的贝叶斯网络理论已经取得了很多进展,也 许现在正是利用新理论建立新一代基于贝叶斯网络的信息检 索系统的最佳时机。
• 贝叶斯公式: A1A2…An是整个样本空间的一个 划分 P( Aj ) P( B | Aj )
P( A ) P( B | A )
i 1 i i
n
,( j 1,..., n)
两事件独立:事件A、B,若P(AB)=P(A)P(B),则称 A 、
B独立
三事件独立:事件A B C,若满足P(AB)=P(A)P(B),
常数
用于排序的量 称为RSV (retrieval status value, 检索状态值)
ct 是查询词项的优势率比率(odds ratio)的对数值。当
查询词项出现在相关文档时,优势率为 pt/(1-pt);当 查询词项出现在不相关文档时,优势率为 ut/(1-ut)。优势 率比率是上述两个优势率的比值,最后对这个值取对数。 如果词项在相关和不相关文档中的优势率相等,ct值为0。 如果词项更可能出现在相关文档中,那么该值为正。 ct 实际上给出的是模型中词项的权重 查询文档的得分就是
11.3 二值独立模型
P( A j | B )
P( A j ) P( B | A j )
P( A ) P ( B | A )
i 1 i i
n
,( j 1,..., n )
11.3 .1 排序函数的推导
常数
朴素贝叶斯条件独立性假设
在给定查询的情况下,认为一个词的出现 与否与任意一个其他词的出现与否是互相独立的
Lecture-11 概率检索模型
提纲
11.1 概率论基础知识
11.2 概率排序原理
11.3 二值独立模型(BIM) 11.4 概率模型的相关评论及扩展
(Okapi BM25 权重计算方法、基于贝叶斯网络的IR模型)
11.1 概率论基础知识
随机试验与随机事件 概率和条件概率 乘法公式、全概率公式、贝叶斯公式 随机变量