当前位置:文档之家› 信息检索系统的评价

信息检索系统的评价

逐个考察检出新的相关文献,将准确率平均
1 r
i
MAP
r 第i个相关文档的位置 i1
r为相关文档数。
计算MAP举例
假设有两个查询,查询1有4个相关文档,查 询2有5个相关文档。某系统对于查询1检索 出4个相关文档,其排序分别为1,2,4,7;对 于查询2检索出3个相关文档,其排序分别为 1,3,5。计算MAP的值。
单值概括
1.5
1.0
8
0.5
0.0 1 2 3 4 5 6 7 8 9 10
-0.5
-1.0
2
-1.5 Query Number
作业
假设查询q为一个给定的用户查询,与q相关的文档集合 Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}
通过某一个检索算法得到的排序结果:
单值评价方法
R准确率(R-Precision)
单个查询的R准确率是检索出R篇相关文档时 的准确率;
查询集合中所有查询的R准确率是每个查询的 R准确率的平均值。
R-Precision= 前R篇文档中相关文档数
R
计算R准确率举例
假设有两个查询,第1个查询有50个相关文 档,第2个查询有10个相关文档。某个系统 对于第1个查询返回的前50个结果中有17个 是相关的,对于第2个查询返回的前10个结 果中有7个事相关的。分别计算查询1、查询 2和查询集合的R准确率。
1. d123 •
6. d9 •
11. d38
2. d84
R
示例
假设用户查询q为一个给定的查询式,而包 含q的相关文档集合Rq为下面的文档集合: Rq={d2,d5,d9,d12,d23} 而针对q的检出相关文档集合为: Aq={d3,d4,d5,d6,d8,d10,d12,d19,d20,d23}
求检索的准确率和召回率。
10
准确率和召回率的关系
返回了大多数相关文档 但是包含很多垃圾
单值评价方法
准确率直方图 多个查询的R-Precision测度 用来比较两个算法的检索纪录
RA B P (i) RA (iP ) R B (iP )
RPA-B=0:对于第i个查询,两个算法有相同的性能 RPA-B>0:对于第i个查询,算法A有较好的性能 RPA-B<0:对于第i个查询,算法B有较好的性能
对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn};
该集合可由人工方式构造。
一组评价指标;
这些指标反映系统的检索性能。通过比较系统实际检出的结 果文档集和标准的相关文档集,对它们的相似性进行量化, 得到这些指标值。
评价任务示例
系统&查询 系统1,查询1 系统1,查询2 系统2,查询1 系统2,查询2
性能评价
对于检索系统的性能来说,除了系统的时间和 空间因素之外,要求检索结果能够按照相关度 进行排序
性能评价指标
在评价和比较检索系统的检索性能需要以下条件:
一个文档集合C;
系统将从该集合中按照查询要求检出相关文档。
一组用户查询要求{q1, q2, …, qn};
每个查询要求qi描述了用户的信息需求。
准确率/召回率曲线
准确率 1 0.8 0.6 0.4 0.2
0 0.2 0.4 0.6 0.8 1
召回率
11点标准召回率
准确率 1 0.8 0.6 0.4 0.2
计算召回率分别为0、10%、 20%…, 100%下的准确率
召回率
0 0.2 0.4 0.6 0.8 1
平均准确率
上述准确率召回率的值对应一个查询
检出文档 相关文档
相关
不相关
检出且 不相关
未检出且 不相关
检出且 相关
检出
未检出且 相关
未检出
准确率和召回率
正确率(Precision): 检出的相关文档数与检出 文档数的比值,也称为查准率;
Ra P
A
召回率(Recall): 系统检出的相关文档数与实 际相关文档数目的比值,也称为查全率。
Ra R
12 3 4 … d3 d6 d8 d10 d1 d4 d7 d11 d6 d7 d3 d9 d1 d2 d4 d13
整个文档集合的划分
未检索出的 不相关文档
未检索出的 相关文档
整个文档集合C
Ra
检索出的 相关文档
检索出的不相 关文档
四种关系的表示
检出不
未检出相 关文档
信息检索评价则是指对信息检索系统的性能 (主要是其满足用户信息需求的能力)进行 评估的活动;
从信息检索系统诞生以来,对检索系统的评 价就一直是推动其研究、开发与应用的一种 主要力量;
IR的评价指标
针对一个检索系统,可以从功能和性能两个 方面对其进行分析评价
功能评价
可通过测试系统来判定是否支持某项功能,因 此相对来说较容易
每个查询对应不同的准确/召回率曲线
为了评价某一算法对于所有测试查询的检索性能, 对每个召回率水平下的准确率进行平均化处理, 公式如下:
P (r ) Nq Pi (r )
N i 1
q
•Nq: 是使用的查询总数 •Pi(r):是召回率为r时的第i个查询的准 确率
单值评价方法
已检出相关文档的平均准确率均值(MAP)
信息检索系统的评 价
评价
评价一般是指评估某个系统的性能、某种产 品的质量、某项技术的价值,或者是某项政 策的效果等等;
竞技体育:世界记录 vs. 世界最好成绩
110米栏世界记录:梅里特,美国,12’’80 男子马拉松世界最好成绩:保罗·特尔加特,肯
尼亚,2小时4分55秒
为什么要对IR进行评价?
1
理想情况
召回率
0
准确率
1
返回最相关的文本
但是漏掉了很多
相关文本
11
准确率/召回率曲线
假设用户查询q为一个给定的查询式,而包 含q的相关文档集合Rq为下面的文档集合: Rq={d2,d5,d9,d12,d23} 检索系统对查询q返回的前10个文档Aq的排 序为:1. d23 2. d3 3.d4 4.d5 5.d6 6.d8 7.d10 8.d12 9.d19 10.d20
单值评价方法
P@10 P@10是系统对于查询返回的前10个结果的
准确率。
例:检索系统对查询q返回的前10个文档Aq的排 序为:1. d23 2. d3 3.d4 4.d5 5.d6 6.d8 7.d10 8.d12 9.d19 10.d20
P@10=30%(共有10篇检出文档,其中3篇为相 关文档)
相关主题