当前位置：文档之家› 【创新管理】国家科技创新平台规划

【创新管理】国家科技创新平台规划

系统包含若干技术，t 某人发明了一个新的 t，评价它的方式:
用它替换系统中的相应技术，看对总的效果的贡献单独在一个评测环境中评价
前者往往代价较高（时间，费用）
例如研究搜索引擎排序算法的不一定有机会摆弄真正的，有大规模用户的搜索引擎
后者可能和真实系统应用有距离
能对这距离有把握也行
为X”之类的结论也还有“3点标准”的说法：25%, 50%, 75%
如果D中相关文档的个数是10的倍数，且如果算法给出的“Ranked A”包含了所有相关文档，得到这些点就会很简单；否则要考虑如何插值的问题
17
“省事的”例子
D={d1,…,d1000}，对查询q，所有相关文档集合（共10个元素）：Rq = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123}
查询的返回结果序：
d123*，d84，d56*，d6，d8，d9*，d511，d5*， d39*，d129，d187，d25*，d38，d44*， d57，d71*，d48，d250，d113，d3*，d200， d144，d11，d89*，d1
Ranking: * ^ * ^ ^ * ^ * * ^ ^ * ^ * ^ * ^ ^ ^ * ^ ^ ^ * ^
信息获取技术的评估
（Retrieval Evaluation）
李晓明，北京大学信息科学技术学院 2004年12月2日
1
提要
引言常用的评估指标评估的实践（评测）
2
引言
关于IR领域
文本技术系统用户（普通，大量）文本语义的丰富性（以及文本集合本身的变化），用户需
求的多样性，模型的简单化
测试：政府高级官员的数量，大文豪、大科学家的数量，…
设计的具体追求：得奖数，发表论文数（影响因子），博士学位获得者人数，科研经费数，…
实践证明如何？
8
评估
不断地对现有的F, G, P（及其相互关系）提出疑问，提出改进，是研究评估的人们应该考虑的基本任务
我们需要了解现在的F, G, P是些什么（如何定义的，如何能得到），但仅此不够。
最好还能有一套设计指标：P={p1, p2, …, pk}
能使我们心里有数：它们实现的程度对g1, g2, …, gm贡献的关系
（防止“irrelevance”）
5
汽车
用户关心：速度，启动加速度，刹车距离，…
发动机测试：转速，扭矩，马力发动机设计：排量，气缸数，点火方
式，…
符合许多IR系统的实际情况，通常都会在结果集合上定义一个序
14
15
平均精度
对recall增加时对应的精度求平均值
和“原始定义”的区别？
这样的“平均精度”有什么不好？
16
“针对11点标准召回率的精度”
人们建议在一些特殊的点上给出Re和Pr的关系
Re=0%, 10%, …, 100%，对应的Pr 于是就能很方便地讲“召回率为20%的时候精度
汽车工业的实践已经证明了它们之间对应关系的有效性（尽管不是100%）
6
计算机
用户关心：速度性能测试：SPEC 设计：主频，CPI，字长，Cache大
小，…
计算机工业的实践也基本证明它们的对应关系是有效的
7
大学
用户（社会）关心：培养能够为人类社会的进步充分发挥潜能的人
事物都是在一个“目的”和“手段”链中发展的，这种链接关系的紧密程度就决定了达到目的的优化程度（效果、效率）
9
信息获取技术评估的“森林”
10
以批判的眼光看Pr,Re,F
“Precision and recall have been used extensively to evaluate the retrieval performance of retrieval algorithms. However, a more careful reflection reveals problems with these two measures.” (page 81, Modern Information Retrieval)
4
评估（技术，系统）
用户关心（系统的）：F={f1, f2, …, fn}
相关性，新颖性，完整性，速度，… 但代价等原因使完整的评估比较困难
我们要确定（技术的）：G={g1, g2, …, gm}
较小的代价能完成对它们的测试对它们测试的结果和f1, f2, …, fn有很好的对应
Recall: .1 .1 .2 .2 .2 .3 .3 .4 .5 .5 .5 .6 .6 .7 .7 .8 .8 .8 .8 .9 .9 .9 .9 1 1
Precisio: 1 .5 .67 .5 .4 .5 .43 .5 .55 .5 .45 .5 .46 .5 .46 .5 .47 .5 .42 .45 .43 .41 .39 .42 .4
系统表现的终极评判在于它们所针对的用户群的评价（大量，长时间）
对系统的评估常常是基于对所包含各项技术评估基础上的
无论是从研究方法还是工程实践的角度，我们都需要能够评估各个单项技术对系统行为可能的贡献
更进一步地，若能将设计指标和评价指标结合起来则最好
3
Hale Waihona Puke System = t1 + t2 +…+ tl
11
先回顾它们的定义和计算
要评价技术T，对于给定的查询，q，总体文档集合D
记
R：D中和q相关文档的集合，|R|：R的大小
A：算法T获取的文档集合，|A|：A的大小
|Ra|：R和A交集的大小
Ra Pr ecision
A
Ra Re call
R
12
查准率和召回率基础定义图示
Relevant Docs in Answer Set |Ra|
Collection
Relevant Docs |R| Answer Set |A|
13
需要考虑的几个问题
定义了，不等于能算了
如何算得针对（Q,D）的Pr, Re？
另外，人们认为在一定的排序意义上考察 Pr, Re更有意义。 “ranked A”，沿着这个rank，考察“查准率（精度）随召回率变化的情况”

e商务文档

【创新管理】国家科技创新平台规划

相关文档推荐：