当前位置:文档之家› 基于用户群体行为分析的搜索引擎自动性能评价

基于用户群体行为分析的搜索引擎自动性能评价


click urli q in SEj )
in
SE
j
)

其中, j 反映不同搜索引擎在结果标注中
的重要程度
搜索引擎效果自动评价
• 例:查询“疯狂英语”
SE1
/ / /m/crazyenglish/ /crazyenglish.htm /
• 检索目标页面单一 • H(URL|Query)较低,检索系统的处理难度较低,答案
标注难度较低
– 信息事务类信息需求对应的答案标注
• 多个检索目标页面 • H(URL|Query)较高,检索系统的处理难度较高,答案
标注难度较高
搜索引擎效果自动评价
• 导航类查询的答案标注
– 结果唯一,不存在“找不全”的问题 – 搜索引擎检索性能高,点击准确度较可靠 – 能够发现用户的关注热点,如
进行标注
搜索引擎效果自动评价
• 基于用户关注程度进行查询样例自动挑选
– 频度高于100的查询:351户查询需求 – 选取热门关键词(big fat head)作为代表性样例
Query Frequency
1.0E+05
7.5E+04
5.0E+04
2.5E+04
合并后的答案标注结果
/ / /crazyenglish.htm
答案自动标注实验
• 实验数据
– 8个月查询日志(超过7亿条日志信息) – 针对其中高频导航类查询进行自动标注 – 对每个时间段抽取约5%的数据进行手工检查
• 用户点击行为差异 • 用户访问量差异 • 查询分布差异 • 搜索引擎相对重要性的差异
– 综合考虑以上因素,计算某个结果对于某个查 询的置信度
P(urli / q)
搜索引擎效果自动评价
• 合并计算结果url对于查询q的置信度
P(urli | q) P(urli | SEj , q)P(SEj | q)
• 形式:传统的信息检索评价方法在网络环境中的应 用。
• 举例:TREC VLC/Web/Terabyte track,SEWM评测等
作为信息检索研究人员,我 们的考察重点
提纲
• 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统:搜索仪 • 结论与未来工作
搜索引擎效果自动评价
• 查询点击分布合并模型
P(urli | q) P(urli | SE j , q)P(SE j | q)
j




j

j
log(#(session of q
log(#(session of
j
in SEj )) q in SEj ))

#
(Sessions of q that # (Session of
搜索引擎效果自动评价
• 自动评价流程
搜索引擎日志
数据预处理
查询分类
导航类标注
信息类标注
搜索引擎结果抓取 性能评价指标计算与反馈
搜索引擎效果自动评价
• 按信息需求将查询样例自动分类
Yiqun Liu et al, Automatic Query Type Identification Based on Click Through Information Proceedings of the 3th Asia Information Retrieval Symposium, AIRS 2006
信息检索系统的评价方法
• 信息检索系统评价的起源(续)
– Cranfield-like evaluation methodology
• Cranfield在上世纪伍十年代末到六十年代初提出了基 于查询样例集、标准答案集和语料库的评测方案, 被称为IR评价的“grand-daddy”
• 确立了评价在信息检索研究中的核心地位
• 挑选最有利于获取信息的手段
– 对搜索引擎工程师而言:
• 算法及数据处理方式有效性的判断
– 对搜索引擎广告商而言:
• 挑选最有效的广告投放手段
研究背景
• 搜索引擎评价的考察方式
– 搜索引擎作为网络服务供应商的属性
• 形式:用户问卷调查 • 举例:CNNIC中国搜索引擎市场调查报告
– 搜索引擎作为网络信息检索工具的属性
– Gerard Salton 与 SMART 系统 – Sparck-Jones 的著作 “Information retrieval
experiment”
• 在线:/iaui/894.02/projects/irlib/
信息检索系统的评价方法
• 网络信息检索系统效果评价的现状
基于用户行为分析的性能评价
• 总体思路
– 基于Cranfield方式进行评价
• 丰富的研究经验:评价指标、查询样例选取策略等 • 便于与传统的手工标注评价方式进行比较
– 基于用户关注程度进行查询样例选取 – 基于用户行为信息进行答案自动标注
• 个体用户可能在点击过程中出现谬误 • 用户群体的点击信息则是很大程度上可靠的 • 统计用户群体的点击行为,进而对查询对应的结果
– 数据对象繁杂,标注困难
• Voorhees 估计,对一个规模为800万的文档集合进行 针对1个查询主题的相关性评判需要耗费1名标注人 员9个月的工作时间
• TREC提出pooling方法,在保证评价结果可靠性的基 础上大大减少了评判工作量
• 缺点:处理的查询数目少,针对小规模的查询集合, 仍需要耗费十余名标注人员1-2个月的工作时间
• 用户行为分析的思路值得肯定 • 缺点:改变用户检索习惯、个体用户行为不可靠等
– 我们的研究思路
• 通过对搜索引擎记录下的用户行为日志进行分析, 不额外增加用户负担。
• 使用用户群体,而不是个体的点击行为作为依据
提纲
• 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统:搜索仪 • 结论与未来工作
j
• P(SE j | q) – 基于单搜索引擎进行答案标注的可信度 – 依据查询用户数来计算
P(SEj | q)
log(#(session of q in SEj )) log(#(session of q in SEj ))
j
搜索引擎效果自动评价
• P(urli | SE j , q)
SE4
/ / /
SE2
/ /crazyenglish.htm / /
SE3
/ /crazyenglish.htm /
– q的点击集中度最高的r即为其检索目标页面
搜索引擎效果自动评价
• 针对导航类查询的结果自动标注
– 标注算法:寻找针对q的ClickFocus值最大的r – 标注样例
查询 读写网 北京现代 NBA 南方都市报 卓越网
自动标注的URL / / / http:// / http:// /
– 提高搜索引擎评价方法的自动化程度势在必行
信息检索系统的评价方法
• 如何提高搜索引擎评价的自动化程度?
查询样例选取
标准答案标注
查询 样例集合
标准 答案集合
检索系统 查询结果
信息检索系统的评价方法
• 核心问题: 如何提高答案标注的自动化程度
– 利用伪相关反馈的方法进行结果自动标注
• 伪相关反馈的结果被认为是答案 • Soboroff et.al, 2001; Nuray et.al, 2003; Beitzel et.al., 2003 • 标注的准确程度和可靠性不高
– 全球范围内84%的互联网用户使用搜索引擎, 其中超过一半的人几乎每天使用。
– 2007年1月,我国网民总人数为13700万人。 – 95%以上的中国网民使用过搜索引擎,84.5%的
用户将搜索引擎作为得知新网站的主要途径。 – 商用搜索引擎竞争日趋激烈。
研究背景
• 性能评价对搜索引擎的重要作用
– 对搜索引擎用户而言:
– 对查询词的近义词集合进行标注
• 根据结果网页的查询词及近义词词频进行评判 • Amitay et.al, 2004 • 初始标注工作量大,评判的可靠性不高
信息检索系统的评价方法
• 核心问题: 如何提高答案标注的自动化程度
– 利用用户行为分析方法
• Joachims et.al.(1997) 创建了一个元搜索接口,将不同 搜索引擎的结果加以混杂,把用户点击不同结果的 情况加以记录,并以此作为评判依据
– 单独某个搜索引擎标注答案的可信程度 – 依据此搜索引擎的用户点击的宏观集中程度
来确定
P(urli | SE j , q) CD(urli | SE j , q) # (Sessions of q that click urli in SE j )
# (Session of q in SE j )
“163” => “搜狗” =>
– 答案标注的难度较低
搜索引擎效果自动评价
• 信息事务类查询的答案标注
– 以查询词”电影”为例
• 不同搜索引擎的点击分布差异大 • 存在着搜索引擎对用户行为的偏置性影响
– 索引数据偏置 – 检索策略偏置
• 结果不唯一,全面性难以保证 • 答案标注难度较大 • 需要借助多个搜索引擎的用户行为信息进行标注
搜索引擎效果自动评价
• 针对导航类查询的结果自动标注
– 利用单个搜索引擎的点击信息即可完成 – 焦点假设:不同用户具有相同的导航类别检索
需求时,他们的点击都会集中在其检索目标网 页(或其镜像)上。 – 网页r 针对查询q的点击集中度
ClickFocus(Query q, Result r) # (Session of q that clicks r) # (Session of q)
相关主题