检索评价
R-查准率 计算序列中第R个位置文献的查准率。通常,R是 指与当前查询相关的文档总数,即R取相关集合Rq 中的文档数。它与P@N有点类似,但不同
信息科学技术学院 ·网络研究所
查准率直方图
用于快速比较两个检索算法的性能。 方法:在多个查询下,分别计算每一
查询下的R-查准率,计算其差值,并 用直方图表示。 具体地: 用RPA(i)和RPB(i) 分别表示使 用检索算法A和检索算法B检索第i个查 询时得到的R-查准率,它们之间的差 值: RPA-B(i)=RPA(i)-RPB(i)
信息科学技术学院 ·网络研究所
TREC-3: the collection size was 2 GB, TREC-6: 5.8 GB TREC6 简单数据统计(6张光盘,每张大小为1G的压缩文本)
信息科学技术学院 ·网络研究所
文档存放格式
<doc> <docno>WSJ880406-0090</docno> <h1>AT&T Unreils Services to Upgrade Phone
覆盖率(coverage):实际检出的相关文档中, 用户已知的相关文档所占的比例。
新颖率(novelty): 检出的相关文档中,用 户未知的相关文档所占的比例。
信息科学技术学院 ·网络研究所
cov erage | Rk | |U |
novelty | Ru | | Ru | | Rk |
5. d8 6. d9* 7. d511
此时,查全率Recall=5/10, 查准率 Precision=5/15。
8. d129 9. d187
还可以看到:对应查全率为
10.d25*
10% 时 的 查 准 率 为 100% ; 对
11.d38
应 查 全 率 为 20% 时 的 查 准 率
12.d48
系统的评价)
信息检索系统还包括其他一些度量指标。 这是由于用户的查询请求本身具有模糊性,
检出的结果不一定是精确答案。需要依照与查询 的相关度,对结果集合的准确度进行评价。
信息科学技术学院 ·网络研究所
检索评测基础
检索评测基础: 建立在测试参考集和一 定的评价测度基础之上。
测试集由一个文档集、一组信息查询实例、对 应于每个信息查询实例的一组相关文档(由专 家提供)所组成。
信息科学技术学院 ·网络研究所
查准率直方图
假设10个查询的查准率直方图。(在8个 查询中检索算法A好于算法B的性能)
R-Precision A/B
1.5
1.0
0.5
0.0
1
2
8
9
10
-0.5
-1.0
-1.5
信息科Q学ue技ry 术Nu学mb院er ·网络研究所
概括表统计
单值测度也可以概括到一张表中,以便 为检索任务中的所有查询集合进行统 计概括。主要包括:查询数量、检索 到的文献总数、相关文献的总数等。
(如r3是查全率为30%的参量),则:
P(rj )=maxrj rrj+1 P(r)
即第j个标准查全率水平的查准率是介于第j个和第j+1个查全率 之间任意一个查全率所对应的查准率的最大值。
信息科学技术学院 ·网络研究所
Rq =
Ranking for query q:
1. d123* 2. d84 3. d56* 4. d6 5. d8 6. d9* 7. d511 8. d129 9. d187 10. d25* 11. d38 12. d48 13. d250 14. d113 15. d3*
检索策略的评价
对一个给定检索策略S,对每个信息查询实例, 评测由S检出的结果集合与由专家提供的相关文 档集之间的相似性,量化这一指标。
信息科学技术学院 ·网络研究所
检索性能评价
评价的类型 实验室评价和真实环境评价,两者
不同。有时,结果出入也较大。 由于在实验室封闭环境下的评价具
有可重复性,目前仍是主流。 还有对交互查询进行评测,需要考
会议情况
评测会议 1992~2004,13届
信息科学技术学院 ·网络研究所
TREC文献集合(测试集、语料库)
测试文档集合、检索问题集合、答案集合
测试文档集合的语料来源:
Wall Street Journal (华尔街时报) Associated Press(联合通讯社(简称美联社)) US Patents computer Selects, Ziff-Davis Federal Register US DOC Publications (abstracts) …
信息科学技术学院 ·网络研究所
Outline
检索性能的评价指标 测试集
检索性能评价的平台 TREC 中文Web测试集 CWT100g
信息科学技术学院 ·网络研究所
测试集
为了对不同的检索系统进行比较,需要建立检索系统性能评 价的试验平台与基准测试,推动信息检索技术的发展。
TREC
为66%;。。。。。 对应查
13.d250
全率为60%时的查准率降为0。 图示如下
14.d113 15.d3*
信息科学技术学院 ·网络研究所
Ranking for query q:
1. d123* 2. d84 3. d56* 4. d6 5. d8 6. d9* 7. d511 8. d129 9. d187 10. d25* 11. d38 12. d48 13. d250 14. d113 15. d3*
信息科学技术学院 ·网络研究所
其它测度方法
调和平均值
调和平均数定义为:数值倒数的平均数 的倒数。其数值恒小于算术平均数。
计算查准率和查全率的调和平均数作为度 量指标。F的取值在[0,1]。
F
1
2
1
rp
信息科学技术学院 ·网络研究所
E测度指标
思想:允许用户指出他更关心查准率
或查全率
to the user which were
retrieved |Rk|
信息科学技术学院 ·网络研究所
相对查全率:系统检出的相关文档的 数量与用户期望检出的相关文档的数 量之比。若用户全部找到,则相对查 全率为1。
查全率负担:用户期望检出的相关文 档的数量与要检出这些文档所需检索 文档的总数。
RA
查准率(Precision):检出的相关文档个数 与检出文档总数的比值,即P=|Ra| / |A|
信息科学技术学院 ·网络研究所
查准率/查全率曲线
由于用户的查看是逐条进行相关性检查。 故此,常用查准率/查全率曲线作为评价 指标。
11点标准查全率下的查准率曲线,计算查 全率分别为(0%,10%, 20%,…, 100%)下的 查准率。
信息科学技术学院 ·网络研究所
CWT100g的Web文档存放格式
version: 1.0 // 版本号 url: / // URL origin: / // 原来的URL date: Tue, 15 Apr 2003 08:13:06 GMT // 抓取时间 ip: 162.105.129.12 // IP地址 unzip-length: 30233 // 如果数据经过压缩,则需有此属性 length: 18133 // 数据长度
// 空行 XXXXXXXX // 以下为数据 XXXXXXXX ⋯. XXXXXXXX // 数据结束 // 最后再插入一个空行
目前平均查准/查全率的值已经成为信息检 索系统的一项标准评价指标。
它能对整个结果集的质量和检索算法的适 用范围进行量化评价,因此非常有效。
信息科学技术学院 ·网络研究所
单值概括
平均查准/查全率可能掩盖一些重要的不规则特征。
已检出的相关文献的平均查准率 基本思想:逐个考察排序中每一新的相关文献,然 后对其查准率的值进行平均。
检索评价
Wang Jimin
Sept. 30, 2005
Outline
检索性能的评价指标 测试集
检索性能评价的平台 TREC 中文Web测试集 CWT100g
信息科学技术学院 ·网络研究所
检索性能的评价指标
系统评价主要包括
功能评价,即评价一个系统是否完成了它所侧重的目标。 性能评价,主要指标是时间与空间的开销。(如:对数据检索
Precision 120% 100%
80% 60% 40% 20%
0%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Recall
信息科学技术学院 ·网络研究所
由于每个查询的查全率值不一定就是这11个标准查全率,因此 需要对查准率进行插补。
如上例中,若Rq只含有3个文档 Rq = {d3, d56, d129}. 此时,如何计算11点标准查全率呢? 设rj{j=0,1,2,…,10}为第j个标准查全率的一个参量
{d3,
d56, d129}
信息科学技术学院 ·网络研究所
多个查询下的查准率/查全率曲线,可 通过计算其平均查准率得到,公式如 下(Nq为查询的数量)
P (r) Nq Pi(r)
i1 Nq
信息科学技术学院 ·网络研究所
多个查询下进行检索算法的比较
对多个查询,进行平均,有时该曲线也称为:查准率/查全率的值。 如下为两个检索算法在多个查询下的查准率/查全率的值。
Text REtrieval Conference,文本检索会议 一开始仅仅面向文本,现在处理对象更广 情报分析和处理
组织者
NIST(National Institute of Standards and Technology),政府部门 DARPA(Defense Advanced Research Projects Agency),军方