2-5 搜索引擎性能评价
33
第一:查询样例集合:真实性
如何构建真实的查询样例集合? 信息检索评测:搜索引擎的用户日志
• TREC Web检索任务:Live或者Yahoo! • 北大SEWM评测:天网搜索 • SogouT评测:搜狗搜索
34
第一:查询样例集合:真实性 如何构建真实的查询样例集合? 日志收集的隐私保护 (AOL) 无法收集日志数据时的折衷方案
实验的主要结论
• 标引语言的检索性能排序:单元词最好,受 控语言次之,自然语言最差 • 使用单元词法时,引入词形与同义控制有一 定效果,但若加强控制,检索性能会降低 • 对于受制语言,在受制词外,若再引入上位 词或上下位词或相关词,系统性能会降低
25
(3)Cranfield评价体系 体系建立 Cleverdon等人于上世纪五十年代末到六十年代初 在Cranfield University工作时提出 确立了评价在信息检索研究中的核心地位 体系组成 评测语料 查询样例 标准答案 评价指标
9
搜索产品的未来
社交化 移动化 整合暗网数据 知识?推理? 自然语言问答 多模态交互方式 可视化 ……
10
ห้องสมุดไป่ตู้
主要内容:
搜索引擎体系结构设计理念
搜索引擎性能评价
11
搜索引擎性能评价的现状
12
搜索引擎性能评价的现状
13
性能评价的作用
对搜索引擎用户而言: 挑选最有利于获取信息的手段 对搜索引擎工程师而言: 算法及数据处理方式有效性的判断 对搜索引擎广告商而言: 挑选最有效的广告投放手段 评价在信息检索系统的研发中一直处于 核心的地位,以致于算法与其效果评价 方式是合二为一的(Saracevic, SIGIR 1995)
1 2 3 4 1 4 3 6 / /f/hotweb/053/17/88017.htm / /fight/warcraft/
基本按照顺序进行点击 点击的页面都是关于查询词的内容丰富的站点 或hub型页面
40
第三:查询样例集合:代表性
举例:魔兽争霸 用户3:游戏下载(事务类)
点击次序 被点击结果的排序 URL
1 2 3 4 3 2 /f/hotweb/053/17/88017.htm / /
26
(3)Cranfield评价体系
语料库
查询样例 标准答案
语料库
查询样例 查询结果列表
待评价 搜索引擎
评价指标
评价结果
27
(3) Cranfield评价体系 如何用Cranfield评价体系进行检索效果评价 如何构建语料库集合 如何构建查询样例集合 面临哪些技术问题? 构建的方法是什么? 如何构建标准答案集合 如何设计评价指标
内容索引子系统:节约每一个比特 链接结构分析子系统:舍弃在线计算的HITS算法 内容检索子系统:舍弃复杂的自然语言和语义理解
8
搜索引擎体系结构设计理念
(4)强调可扩展性的设计理念
数据抓取子系统的可扩展性 应对硬件资源扩展 内容索引系统的可扩展性 新抓取的内容数据 内容检索系统的可扩展性 新增加的排序因素 链接结构分析系统的可扩展性 新出现的网页数据
搜索引擎作为网络信息检索工具的属性
• 形式:传统的信息检索评价方法在网络环境中的应 用。 • 信息检索系统的评价方式如何应用于搜索引擎?
我们的研究重点
16
(1)如何研究性能评价 效率 还是 效果 效率 (Efficiency)
• 用户需求是否得到了很快的响应? • 为满足用户需求耗费了多大规模的硬件资源? • 指标举例:响应时间、索引量、开销
效果 (Effectiveness)
• 搜索结果列表是否合理? • 是否满足了用户的信息需求? • 指标举例:查全率/查准率
我们的研究重点
17
(2)搜索引擎检索效果评价
如何进行检索效果评价? “黑箱”评价方式
• 关注搜索引擎系统的输入、输出 • 不关注搜索引擎的具体实现方式
具体实现:
被点击结 点击次序 果的排序 1
9
URL
/
结束查询
被点击结 点击次序 果的排序 1
7
URL
/war3/wc3/
结束查询
39
第三:查询样例集合:代表性
举例:魔兽争霸 用户2:获取资讯(信息类)
点击次序 被点击结果的排序 URL
(1)用户需求驱动的设计理念 (2)有损优化的设计理念
(3)强调效率的设计理念
(4)强调可扩展性的设计理念
5
搜索引擎体系结构设计理念
(1)用户需求驱动的设计理念
根据用户需求确定网页抓取、更新的频率
根据用户需求确定网页层次索引结构的组成
根据用户需求确定检索算法设计
根据用户需求设计链接结构分析算法,确定网 页质量评估的方式
30
(3) Cranfield评价体系
Cranfield评价体系下的一些评测语料 文本信息检索会议语料
• • • • • Text REtrieval Conference, TREC( / ) 1992年开始,由NIST和DARPA共同承办 至今为止已有300余家单位参与 CMU, Umass, UIUC, IBM, MS, … THU, PKU, NUS, TOKYO, …
28
(3) Cranfield评价体系
语料库
查询样例 标准答案 查询结果列表
待评价 搜索引擎
评价指标
评价结果
29
① 语料库集合
语料库集合是指与信息检索系统应用目标相一致 的语料数据集合。 对于信息检索系统 提供固定的语料库集合 集合规模适当:与单块主流价位硬盘的存储能 力适应(VLC2, 1997, 200G) 数据质量可靠:集中在特定范围抓取(.edu, .gov) 对于商业搜索引擎 不需额外提供语料库 “不公平”的博弈? Index Size War, 暗网抓取, …
24
Cranfield-Ⅱ评价实验
实验文献对象
• 内容为高速航空动力学与飞行器结构的1400 篇文献(研究报告)
实验过程
• 对每篇研究报告用4种标引语言处理 • 研究报告作者根据报告内容共拟定了221个 检索式 • 对每个检索提问在不同控制模式上进行实 验,记录实验结果
Cranfield-Ⅱ评价实验
14
搜索引擎性能评价
1. 搜索引擎评价与Cranfield评价体系
2. 查询样例集合构建
3. 正确答案集合构建
4. 搜索引擎评价指标
15
1. 搜索引擎评价与Cranfield评价体系
(1)如何研究性能评价?服务提供商 还是 信息 检索工具 搜索引擎作为网络服务供应商的属性
• 形式:用户问卷调查 • 举例:CNNIC中国搜索引擎市场调查报告
实验检索提问
• 提供1200个由文献作者拟定的检索提问
20
Cranfield-Ⅰ评价实验
实验结果
语言 UDC 标题语言 分面分类法 单元词 检索课题数 成功课题数 1157 1154 1047 1146 875 941 773 940 失败课题数 成功率(%) 282 213 274 206 75.6 81.5 73.8 82.0
• Cranfield评价体系 • 给定标准输入,标准输出 • 用标准输入下系统输出与标准输出 的差异来衡量系统性能
18
1. 搜索引擎评价与Cranfield评价体系 Cranfield-Ⅰ评价实验
实验时间
• 1957-1962
实验地点
• 英国Cranfield市航空学院图书馆
评价对象
6
搜索引擎体系结构设计理念
(2)有损优化的设计理念
核心:搜索引擎是资源密集的网络产品,要把有
限的资源用在合理的方向,尽可能满足最大多数
的查询。
部分网页抓取更新频率要高于其它网页 高水平的硬件部件只应用于高质量网页的索引
7
搜索引擎体系结构设计理念
(3)强调效率的设计理念
数据抓取子系统:节省带宽/提升R/提升U
21
Cranfield-Ⅰ评价实验
主要结论
• 4种检索语言的检索成功率大致相同(约80 %) • 检索失败的主要因素
– 由4个因素决定:提问(17%),标引(60%) ,检索(17%)与系统(6% ) – 主要因素是标引与检索(77%),其中55%是人 的因素造成的,另22%是由标引时间引起的
37
第二:查询样例集合:代表性 查询的热门程度 对于搜索引擎改进算法
• 二八定律:改进少数查询即可满足大部分用户 • 长尾定律:冷门查询决定大量用户的搜索偏好
– 例:姓名查询、公司主页查询
对于查询样例集合构建
• 充分重视热门查询 • 采样适当的冷门查询
38
第三:查询样例集合:代表性 举例:魔兽争霸 用户1:到达某些特定站点(导航类)
其他语料:NTCIR语料, SEWM语料, SogouT语料 (/labs/resources.html) 复旦语料库
31
Cranfield评价体系
语料库
查询样例 标准答案 查询结果列表
待评价 搜索引擎
评价指标
评价结果
32
② 查询样例集合
查询样例集合是指评价搜索引擎性能时,模拟用户 实际需求向搜索引擎提出的查询(query)集合。 核心问题:如何采样 ComScore:More than 18.2 billion explicit core searches were conducted in December in U.S. 艾瑞咨询:2011年第三季度中国网页搜索请求量 达775.1亿次 采样技术挑战 真实性:真实查询信息收集 代表性:搜索引擎各方面性能 精确性:减少歧义,方便标注