当前位置:文档之家› lecture11-probmodel 信息检索导论 王斌 PPT 课件 第11章

lecture11-probmodel 信息检索导论 王斌 PPT 课件 第11章


20
现代信息检索
乘法公式、全概率公式和贝叶斯公式
乘法公式:
P(AB)=P(A)P(B|A) P(A1A2…An)=P(A1)P(A2|A1)...P(An|A1…An-1)
全概率公式:A1A2…An是整个样本空间的 一个划分 P( B )= P( A ) P( B | A )
n i i i 1
上一讲及向量空间模型回顾
基本概率统计知识

❹ ❺
Logistic回归模型
BIM模型 BM25模型
30
现代信息检索
回归(Regression)
回归分析:回归分析是处理变量之间相关关系的一种工具, 回归的结果可以用于预测或者分类 一元线性回归:根据观测点,拟合出一条直线,使得某种损 失 (如离差平方和)最小 ^
9
现代信息检索
基于词汇化子树表示的向量空间模型
目标: 对向量空间中的每一维都同时考虑单词及其在XML树中 的位置信息 做法: 将XML文档映射成词汇化子树
Book Microsoft Bill Gates
Title
Title Author Microsoft Microsoft Bill Gates
现代信息检索
概率检索模型
概率检索模型是通过概率的方法将查询和文档联 系起来
定义3个随机变量R、Q、D:相关度R={0,1},查询 Q={q1,q2,…},文档D={d1,d2,…},则可以通过计算条件 概率P(R=1|Q=q,D=d)来度量文档和查询的相关度。
概率模型包括一系列模型,如Logistic Regression(回归)模型及最经典的二值独立概率模 型BIM、BM25模型等等(还有贝叶斯网络模型)。 1998出现的基于统计语言建模的信息检索模型本 质上也是概率模型的一种。
28
现代信息检索
几种概率检索模型
基于Logistic回归的检索模型 经典的二值独立概率模型BIM 经典的BM25模型 (BestMatch25) 贝叶斯网络模型:本讲义不介绍,请参考有关文 献。 基于语言建模的检索模型:1998年兴起,研究界 的热点。下一讲介绍。
29
提纲
❶ ❷
Author
Bill
Author
Gates
Book
Title Microsoft
Book
Author Bill Gates
...
10
现代信息检索
INEX(Initiative for the Evaluation of XML retrieval)
INEX: XML检索研究中的首要评测平台,它通过协作产生参考文档集、查询
494 MB
1995—2002 1,532 6.9 30 30
规模
文章发表年份 平均每篇文档中的XML节点个数 平均每个节点的深度 CAS主题的数目 CO 主题的数目
11
现代信息检索
向量空间模型
文档表示成向量
查询也表示成向量 计算两个向量之间的相似度:余弦相似度、内积 相似度等等 在向量表示中的词项权重计算方法主要是tf-idf公 式,实际考虑tf、idf及文档长度3个因素
❶ ❷
将节点分组,形成多个互不重叠的伪文档 (pseudodocument ) 索引最大元素,然后自顶向下(top down)后处理


索引叶节点,然后自底向上(bottom up)进行后处理扩展
对所有元素建立索引
8
现代信息检索
挑战3:元素嵌套
针对元素嵌套所造成的冗余性,普遍的做法是对返回元素进行限 制。这些限制策略包括: 这些限制策略包括: 忽略所有的小元素 忽略用户不会浏览的所有元素类型(这需要记录当前 XML检索系统的运行日志信息 忽略通常被评估者判定为不相关性的元素类型(如果有 相关性判定的话) 只保留系统设计人员或图书馆员认定为有用的检索结果 所对应的元素类型 在大部分上述方法中,结果集中仍然包含嵌套元素。
数字图书馆、专利数据库、博客、包含已标注命名实体 (如人名、地名)的文本
例子
数字图书馆: give me a full-length article on fast fourier transforms
专利: give me patens whose claims mention RSA public key encryption and that cite US patent 4,405,829
现代信息检索
各种分布关系图
硬币朝上或朝下X=0 或者1
二值 分布
n重贝努利试验
二项 分布
n重贝努利试验 k次朝上的概率
多值 n元贝努 利分布
骰子某个面朝上 X=0,1,2,3
n次不同硬币
n 重试验, X1=x1, X2=x2,…
多项 分布
现代信息检索
贝努利
瑞士数学家家族,产生过11位数学 家 雅可比贝努利(Jacob Bernoulli) : 1654-1705 积分“integral”这一术语即由他首创
实体标记文本: give me articles about sightseeing tours of the Vatican and the Coliseum
4
现代信息检索
XML 文档
5
现代信息检索
挑战1: 返回文档的一部分
XML检索中,用户希望返回文档的一部分(即 XML元素), 而不像非结构化检索那样往往返回整个文档
贝努利试验、贝努利分布
25
现代信息检索
概率检索模型
检索系统中,给定查询,计算每个文档的相关 度 检索系统对用户查询的理解是非确定的 (uncertain),对返回结果的猜测也是非确定的 而概率理论为非确定推理提供了坚实的理论基 础 概率检索模型可以计算文档和查询相关的可能 性
26
16
现代信息检索
概率 vs. 统计
概率是统计的理论基础
概率
统计是概率的实际应用 necessity 典型问题: 已知某数 据总体满足某分布, 抽样得到某数据的概 率是多少?
统计
典型问题:已知某抽样 数据(或总体分布),判 断总体的分布(或分布 参数) 是多少?
现代信息检索
概率统计初步
随机试验与随机事件 概率和条件概率 乘法公式、全概率公式、贝叶斯公式 随机变量 随机变量的分布
12
现代信息检索
tf-idf权重计算的三要素
13
现代信息检索
向量空间模型的优缺点
优点:
简洁直观,可以应用到很多其他领域(文本分类、生 物信息学)。 支持部分匹配和近似匹配,结果可以排序 检索效果不错
缺点:
理论上不够:基于直觉的经验性公式 标引项之间的独立性假设与实际不符:实际上, term的出现之间是有关系的,不是完全独立的。如: “王励勤” “乒乓球”的出现不是独立的。

❹ ❺
Logistic回归模型
BIM模型 BM25模型
2
提纲
❶ ❷
上一讲及向量空间模型回顾
基本概率统计知识

❹ ❺
Logistic回归模型
BIM模型 BM25模型
3
现代信息检索
结构化检索(Structured retrieval)
基本配置: 结构化或非结构化查询+结构化文档
结构化检索的应用场景
14
现代信息检索
本讲内容
概率基础知识
基于概率理论的检索模型 Logistic回归模型
二值独立概率模型 BIM:不考虑词项频率和文档 长度
考虑词项频率和文档长度的BM25模型
15
提纲
❶ ❷
上一讲及向量空间模型回顾
基本概率统计知识

❹ ❺
Logistic回归模型
BIM模型 BM25模型
18
现代信息检索
随机试验和随机事件
随机试验:可在相同条件下重复进行;试验可能 结果不止一个,但能确定所有的可能结果;一次 试验之前无法确定具体是哪种结果出现。
掷一颗骰子,考虑可能出现的点数
随机事件:随机试验中可能出现或可能不出现的 情况叫“随机事件”
掷一颗骰子,4点朝上
19
现代信息检索
Introduction to Information Retrieval 中科院研究生院2011年秋季课程《现代信息检索》
更新时间: 2011/11/07
现代信息检索 Modern Information Retrieval
第11讲 概率检索模型 Probabilistic Information Retrieval
贝叶斯公式: A1A2…An是整个样本空间的 一个划分
P( Aj | B ) P( Aj ) P( B | A j )
i i
P( A ) P( B | A )
i 1
n
,( j 1,..., n )
21
现代信息检索
事件的独立性
两事件独立:事件A、B,若P(AB)=P(A)P(B), 则称A 、B独立 三事件独立:事件A B C,若满足 P(AB)=P(A)P(B), P(AC)=P(A)P(C),P(BC)=P(B)P(C), P(ABC)=P(A)P(B)P(C),则称A、B、C独立 多事件独立:两两独立、三三独立、四四独 立….
y
( xi , yi )
^
பைடு நூலகம்y a bx
( xi , yi )
多元线性回归:
x1
i
x
y 0 i xi
31
集及相关性判断。在每年一度的INEX会议上,研究人员展示并讨论交流各 自的研究结果。INEX 2002文档集包含大概12000篇来自IEEE期刊的文章。
相关主题