当前位置：文档之家› 信息检索系统的评价

信息检索系统的评价

逐个考察检出新的相关文献，将准确率平均
1 r
i
MAP
r 第i个相关文档的位置 i1
r为相关文档数。
计算MAP举例
假设有两个查询，查询1有4个相关文档，查询2有5个相关文档。某系统对于查询1检索出4个相关文档，其排序分别为1,2,4,7；对于查询2检索出3个相关文档，其排序分别为 1,3,5。计算ＭＡＰ的值。
单值概括
1.5
1.0
8
0.5
0.0 1 2 3 4 5 6 7 8 9 10
-0.5
-1.0
2
-1.5 Query Number
作业
假设查询q为一个给定的用户查询，与q相关的文档集合 Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}
通过某一个检索算法得到的排序结果：
单值评价方法
R准确率（R-Precision）
单个查询的R准确率是检索出Ｒ篇相关文档时的准确率；
查询集合中所有查询的Ｒ准确率是每个查询的Ｒ准确率的平均值。
R-Precision＝前R篇文档中相关文档数
R
计算R准确率举例
假设有两个查询，第1个查询有50个相关文档，第2个查询有10个相关文档。某个系统对于第1个查询返回的前50个结果中有17个是相关的，对于第2个查询返回的前10个结果中有7个事相关的。分别计算查询1、查询 2和查询集合的R准确率。
1. d123 •
6. d9 •
11. d38
2. d84
R
示例
假设用户查询q为一个给定的查询式，而包含q的相关文档集合Rq为下面的文档集合： Rq={d2,d5,d9,d12,d23} 而针对q的检出相关文档集合为： Aq={d3,d4,d5,d6,d8,d10,d12,d19,d20,d23}
求检索的准确率和召回率。
10
准确率和召回率的关系
返回了大多数相关文档但是包含很多垃圾
单值评价方法
准确率直方图多个查询的R-Precision测度用来比较两个算法的检索纪录
RA B P (i) RA (iP ) R B (iP )
RPA-B=0:对于第i个查询，两个算法有相同的性能 RPA-B>0:对于第i个查询，算法A有较好的性能 RPA-B<0:对于第i个查询，算法B有较好的性能
对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}；
该集合可由人工方式构造。
一组评价指标；
这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集，对它们的相似性进行量化，得到这些指标值。
评价任务示例
系统&查询系统1，查询1 系统1，查询2 系统2，查询1 系统2，查询2
性能评价
对于检索系统的性能来说，除了系统的时间和空间因素之外，要求检索结果能够按照相关度进行排序
性能评价指标
在评价和比较检索系统的检索性能需要以下条件：
一个文档集合C；
系统将从该集合中按照查询要求检出相关文档。
一组用户查询要求{q1, q2, …, qn}；
每个查询要求qi描述了用户的信息需求。
准确率/召回率曲线
准确率 1 0.8 0.6 0.4 0.2
0 0.2 0.4 0.6 0.8 1
召回率
11点标准召回率
准确率 1 0.8 0.6 0.4 0.2
计算召回率分别为0、10%、 20%…, 100%下的准确率
召回率
0 0.2 0.4 0.6 0.8 1
平均准确率
上述准确率召回率的值对应一个查询
检出文档相关文档
相关
不相关
检出且不相关
未检出且不相关
检出且相关
检出
未检出且相关
未检出
准确率和召回率
正确率(Precision): 检出的相关文档数与检出文档数的比值，也称为查准率；
Ra P
A
召回率(Recall): 系统检出的相关文档数与实际相关文档数目的比值，也称为查全率。
Ra R
12 3 4 … d3 d6 d8 d10 d1 d4 d7 d11 d6 d7 d3 d9 d1 d2 d4 d13
整个文档集合的划分
未检索出的不相关文档
未检索出的相关文档
整个文档集合C
Ra
检索出的相关文档
检索出的不相关文档
四种关系的表示
检出不
未检出相关文档
信息检索评价则是指对信息检索系统的性能（主要是其满足用户信息需求的能力）进行评估的活动;
从信息检索系统诞生以来，对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量;
IR的评价指标
针对一个检索系统，可以从功能和性能两个方面对其进行分析评价
功能评价
可通过测试系统来判定是否支持某项功能，因此相对来说较容易
每个查询对应不同的准确/召回率曲线
为了评价某一算法对于所有测试查询的检索性能，对每个召回率水平下的准确率进行平均化处理，公式如下：
P (r ) Nq Pi (r )
N i 1
q
•Nq：是使用的查询总数 •Pi(r)：是召回率为r时的第i个查询的准确率
单值评价方法
已检出相关文档的平均准确率均值（MAP）
信息检索系统的评价
评价
评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值，或者是某项政策的效果等等;
竞技体育：世界记录 vs. 世界最好成绩
110米栏世界记录：梅里特，美国，12’’80 男子马拉松世界最好成绩：保罗·特尔加特，肯
尼亚，2小时4分55秒
为什么要对IR进行评价？
1
理想情况
召回率
0
准确率
1
返回最相关的文本
但是漏掉了很多
相关文本
11
准确率/召回率曲线
假设用户查询q为一个给定的查询式，而包含q的相关文档集合Rq为下面的文档集合： Rq={d2,d5,d9,d12,d23} 检索系统对查询q返回的前10个文档Aq的排序为：1. d23 2. d3 3.d4 4.d5 5.d6 6.d8 7.d10 8.d12 9.d19 10.d20
单值评价方法
P@10 P@10是系统对于查询返回的前10个结果的
准确率。
例：检索系统对查询q返回的前10个文档Aq的排序为：1. d23 2. d3 3.d4 4.d5 5.d6 6.d8 7.d10 8.d12 9.d19 10.d20
P@10=30%（共有10篇检出文档，其中3篇为相关文档）

e商务文档

信息检索系统的评价

相关文档推荐：