当前位置:文档之家› 【创新管理】国家科技创新平台规划

【创新管理】国家科技创新平台规划

系统包含若干技术,t 某人发明了一个新的 t,评价它的方式:
用它替换系统中的相应技术,看对总的效果的贡献 单独在一个评测环境中评价
前者往往代价较高(时间,费用)
例如研究搜索引擎排序算法的不一定有机会摆弄真 正的,有大规模用户的搜索引擎
后者可能和真实系统应用有距离
能对这距离有把握也行
为X”之类的结论 也还有“3点标准”的说法:25%, 50%, 75%
如果D中相关文档的个数是10的倍数,且如 果算法给出的“Ranked A”包含了所有相关 文档,得到这些点就会很简单;否则要考虑 如何插值的问题
17
“省事的”例子
D={d1,…,d1000},对查询q,所有相关文档 集合(共10个元素):Rq = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123}
查询的返回结果序:
d123*,d84,d56*,d6,d8,d9*,d511,d5*, d39*,d129,d187,d25*,d38,d44*, d57,d71*,d48,d250,d113,d3*,d200, d144,d11,d89*,d1
Ranking: * ^ * ^ ^ * ^ * * ^ ^ * ^ * ^ * ^ ^ ^ * ^ ^ ^ * ^
信息获取技术的评估
(Retrieval Evaluation)
李晓明,北京大学信息科学技术学院 2004年12月2日
1
提要
引言 常用的评估指标 评估的实践(评测)
2
引言
关于IR领域
文本技术系统用户(普通,大量) 文本语义的丰富性(以及文本集合本身的变化),用户需
求的多样性,模型的简单化
测试:政府高级官员的数量,大文豪、大 科学家的数量,…
设计的具体追求:得奖数,发表论文数 (影响因子),博士学位获得者人数,科 研经费数,…
实践证明如何?
8
评估
不断地对现有的F, G, P(及其相互关系)提出 疑问,提出改进,是研究评估的人们应该考虑 的基本任务
我们需要了解现在的F, G, P是些什么(如何定 义的,如何能得到),但仅此不够。
最好还能有一套设计指标:P={p1, p2, …, pk}
能使我们心里有数:它们实现的程度对g1, g2, …, gm贡献的关系
(防止“irrelevance”)
5
汽车
用户关心:速度,启动加速度,刹车距 离,…
发动机测试:转速,扭矩,马力 发动机设计:排量,气缸数,点火方
式,…
符合许多IR系统的实际情况,通常都会在 结果集合上定义一个序
14
15
平均精度
对recall增加时对应的 精度求平均值
和“原始定义”的区别?
这样的“平均精度”有 什么不好?
16
“针对11点标准召回率的精度”
人们建议在一些特殊的点上给出Re和Pr的 关系
Re=0%, 10%, …, 100%,对应的Pr 于是就能很方便地讲“召回率为20%的时候精度
汽车工业的实践已经证明了它们之间对应 关系的有效性(尽管不是100%)
6
计算机
用户关心:速度 性能测试:SPEC 设计:主频,CPI,字长,Cache大
小,…
计算机工业的实践也基本证明它们的对应 关系是有效的
7
大学
用户(社会)关心:培养能够为人类社会 的进步充分发挥潜能的人
事物都是在一个“目的”和“手段”链中发展 的,这种链接关系的紧密程度就决定了达到目 的的优化程度(效果、效率)
9
信息获取技术评估的“森林”
10
以批判的眼光看Pr,Re,F
“Precision and recall have been used extensively to evaluate the retrieval performance of retrieval algorithms. However, a more careful reflection reveals problems with these two measures.” (page 81, Modern Information Retrieval)
4
评估(技术,系统)
用户关心(系统的):F={f1, f2, …, fn}
相关性,新颖性,完整性,速度,… 但代价等原因使完整的评估比较困难
我们要确定(技术的):G={g1, g2, …, gm}
较小的代价能完成对它们的测试 对它们测试的结果和f1, f2, …, fn有很好的对应
Recall: .1 .1 .2 .2 .2 .3 .3 .4 .5 .5 .5 .6 .6 .7 .7 .8 .8 .8 .8 .9 .9 .9 .9 1 1
Precisio: 1 .5 .67 .5 .4 .5 .43 .5 .55 .5 .45 .5 .46 .5 .46 .5 .47 .5 .42 .45 .43 .41 .39 .42 .4
系统表现的终极评判在于它们所针对的用户群的评 价(大量,长时间)
对系统的评估常常是基于对所包含各项技术评估基 础上的
无论是从研究方法还是工程实践的角度,我们都需要能够 评估各个单项技术对系统行为可能的贡献
更进一步地,若能将设计指标和评价指标结合起来则最好
3
Hale Waihona Puke System = t1 + t2 +…+ tl
11
先回顾它们的定义和计算
要评价技术T,对于给定的查询,q,总 体文档集合D

R:D中和q相关文档的集合,|R|:R的大小
A:算法T获取的文档集合,|A|:A的大小
|Ra|:R和A交集的大小
Ra Pr ecision
A
Ra Re call
R
12
查准率和召回率基础定义图示
Relevant Docs in Answer Set |Ra|
Collection
Relevant Docs |R| Answer Set |A|
13
需要考虑的几个问题
定义了,不等于能算了
如何算得针对(Q,D)的Pr, Re?
另外,人们认为在一定的排序意义上考察 Pr, Re更有意义。 “ranked A”,沿着 这个rank,考察“查准率(精度)随召 回率变化的情况”
相关主题