当前位置：文档之家› 2-5 搜索引擎性能评价

2-5 搜索引擎性能评价

33
第一：查询样例集合：真实性
如何构建真实的查询样例集合？信息检索评测：搜索引擎的用户日志
• TREC Web检索任务：Live或者Yahoo! • 北大SEWM评测：天网搜索 • SogouT评测：搜狗搜索
34
第一：查询样例集合：真实性如何构建真实的查询样例集合？日志收集的隐私保护 (AOL) 无法收集日志数据时的折衷方案
实验的主要结论
• 标引语言的检索性能排序：单元词最好，受控语言次之，自然语言最差 • 使用单元词法时，引入词形与同义控制有一定效果，但若加强控制，检索性能会降低 • 对于受制语言，在受制词外，若再引入上位词或上下位词或相关词，系统性能会降低
25
（3）Cranfield评价体系体系建立 Cleverdon等人于上世纪五十年代末到六十年代初在Cranfield University工作时提出确立了评价在信息检索研究中的核心地位体系组成评测语料查询样例标准答案评价指标
9
搜索产品的未来
社交化移动化整合暗网数据知识？推理？自然语言问答多模态交互方式可视化 ……
10
ห้องสมุดไป่ตู้
主要内容：
搜索引擎体系结构设计理念
搜索引擎性能评价
11
搜索引擎性能评价的现状
12
搜索引擎性能评价的现状
13
性能评价的作用
对搜索引擎用户而言：挑选最有利于获取信息的手段对搜索引擎工程师而言：算法及数据处理方式有效性的判断对搜索引擎广告商而言：挑选最有效的广告投放手段评价在信息检索系统的研发中一直处于核心的地位，以致于算法与其效果评价方式是合二为一的（Saracevic, SIGIR 1995）
1 2 3 4 1 4 3 6 / /f/hotweb/053/17/88017.htm / /fight/warcraft/
基本按照顺序进行点击点击的页面都是关于查询词的内容丰富的站点或hub型页面
40
第三：查询样例集合：代表性
举例：魔兽争霸用户3：游戏下载（事务类）
点击次序被点击结果的排序 URL
1 2 3 4 3 2 /f/hotweb/053/17/88017.htm / /
26
（3）Cranfield评价体系
语料库
查询样例标准答案
语料库
查询样例查询结果列表
待评价搜索引擎
评价指标
评价结果
27
（3） Cranfield评价体系如何用Cranfield评价体系进行检索效果评价如何构建语料库集合如何构建查询样例集合面临哪些技术问题？构建的方法是什么？如何构建标准答案集合如何设计评价指标
内容索引子系统：节约每一个比特链接结构分析子系统：舍弃在线计算的HITS算法内容检索子系统：舍弃复杂的自然语言和语义理解
8
搜索引擎体系结构设计理念
（4）强调可扩展性的设计理念
数据抓取子系统的可扩展性应对硬件资源扩展内容索引系统的可扩展性新抓取的内容数据内容检索系统的可扩展性新增加的排序因素链接结构分析系统的可扩展性新出现的网页数据
搜索引擎作为网络信息检索工具的属性
• 形式：传统的信息检索评价方法在网络环境中的应用。 • 信息检索系统的评价方式如何应用于搜索引擎？
我们的研究重点
16
（1）如何研究性能评价效率还是效果效率 (Efficiency)
• 用户需求是否得到了很快的响应？ • 为满足用户需求耗费了多大规模的硬件资源？ • 指标举例：响应时间、索引量、开销
效果 (Effectiveness)
• 搜索结果列表是否合理？ • 是否满足了用户的信息需求？ • 指标举例：查全率/查准率
我们的研究重点
17
（2）搜索引擎检索效果评价
如何进行检索效果评价？ “黑箱”评价方式
• 关注搜索引擎系统的输入、输出 • 不关注搜索引擎的具体实现方式
具体实现：
被点击结点击次序果的排序 1
9
URL
/
结束查询
被点击结点击次序果的排序 1
7
URL
/war3/wc3/
结束查询
39
第三：查询样例集合：代表性
举例：魔兽争霸用户2：获取资讯（信息类）
点击次序被点击结果的排序 URL
（1）用户需求驱动的设计理念（2）有损优化的设计理念
（3）强调效率的设计理念
（4）强调可扩展性的设计理念
5
搜索引擎体系结构设计理念
（1）用户需求驱动的设计理念
根据用户需求确定网页抓取、更新的频率
根据用户需求确定网页层次索引结构的组成
根据用户需求确定检索算法设计
根据用户需求设计链接结构分析算法，确定网页质量评估的方式
30
（3） Cranfield评价体系
Cranfield评价体系下的一些评测语料文本信息检索会议语料
• • • • • Text REtrieval Conference, TREC（ / ） 1992年开始，由NIST和DARPA共同承办至今为止已有300余家单位参与 CMU, Umass, UIUC, IBM, MS, … THU, PKU, NUS, TOKYO, …
28
（3） Cranfield评价体系
语料库
查询样例标准答案查询结果列表
待评价搜索引擎
评价指标
评价结果
29
① 语料库集合
语料库集合是指与信息检索系统应用目标相一致的语料数据集合。对于信息检索系统提供固定的语料库集合集合规模适当：与单块主流价位硬盘的存储能力适应(VLC2, 1997, 200G) 数据质量可靠：集中在特定范围抓取(.edu, .gov) 对于商业搜索引擎不需额外提供语料库 “不公平”的博弈？ Index Size War, 暗网抓取, …
24
Cranfield-Ⅱ评价实验
实验文献对象
• 内容为高速航空动力学与飞行器结构的1400 篇文献（研究报告）
实验过程
• 对每篇研究报告用4种标引语言处理 • 研究报告作者根据报告内容共拟定了221个检索式 • 对每个检索提问在不同控制模式上进行实验，记录实验结果
Cranfield-Ⅱ评价实验
14
搜索引擎性能评价
1. 搜索引擎评价与Cranfield评价体系
2. 查询样例集合构建
3. 正确答案集合构建
4. 搜索引擎评价指标
15
1. 搜索引擎评价与Cranfield评价体系
（1）如何研究性能评价？服务提供商还是信息检索工具搜索引擎作为网络服务供应商的属性
• 形式：用户问卷调查 • 举例：CNNIC中国搜索引擎市场调查报告
实验检索提问
• 提供1200个由文献作者拟定的检索提问
20
Cranfield-Ⅰ评价实验
实验结果
语言 UDC 标题语言分面分类法单元词检索课题数成功课题数 1157 1154 1047 1146 875 941 773 940 失败课题数成功率（％） 282 213 274 206 75.6 81.5 73.8 82.0
• Cranfield评价体系 • 给定标准输入，标准输出 • 用标准输入下系统输出与标准输出的差异来衡量系统性能
18
1. 搜索引擎评价与Cranfield评价体系 Cranfield-Ⅰ评价实验
实验时间
• 1957-1962
实验地点
• 英国Cranfield市航空学院图书馆
评价对象
6
搜索引擎体系结构设计理念
（2）有损优化的设计理念
核心：搜索引擎是资源密集的网络产品，要把有
限的资源用在合理的方向，尽可能满足最大多数
的查询。
部分网页抓取更新频率要高于其它网页高水平的硬件部件只应用于高质量网页的索引
7
搜索引擎体系结构设计理念
（3）强调效率的设计理念
数据抓取子系统：节省带宽/提升R/提升U
21
Cranfield-Ⅰ评价实验
主要结论
• 4种检索语言的检索成功率大致相同（约80 ％） • 检索失败的主要因素
– 由4个因素决定：提问（17％），标引（60％），检索（17％）与系统（6％） – 主要因素是标引与检索（77％），其中55％是人的因素造成的，另22％是由标引时间引起的
37
第二：查询样例集合：代表性查询的热门程度对于搜索引擎改进算法
• 二八定律：改进少数查询即可满足大部分用户 • 长尾定律：冷门查询决定大量用户的搜索偏好
– 例：姓名查询、公司主页查询
对于查询样例集合构建
• 充分重视热门查询 • 采样适当的冷门查询
38
第三：查询样例集合：代表性举例：魔兽争霸用户1：到达某些特定站点（导航类）
其他语料：NTCIR语料, SEWM语料, SogouT语料（/labs/resources.html）复旦语料库
31
Cranfield评价体系
语料库
查询样例标准答案查询结果列表
待评价搜索引擎
评价指标
评价结果
32
② 查询样例集合
查询样例集合是指评价搜索引擎性能时，模拟用户实际需求向搜索引擎提出的查询（query）集合。核心问题：如何采样 ComScore：More than 18.2 billion explicit core searches were conducted in December in U.S. 艾瑞咨询：2011年第三季度中国网页搜索请求量达775.1亿次采样技术挑战真实性：真实查询信息收集代表性：搜索引擎各方面性能精确性：减少歧义，方便标注

e商务文档

2-5 搜索引擎性能评价

相关文档推荐：