当前位置:文档之家› 信息检索复习

信息检索复习

高能粒子协会分别推出了因特网上的检索工 具WAIS、GOTHER和WWW。 目前,WWW因其集文本、图像、声音等多媒 体信息于一体的巨大优点,已占信息服务的 主导地位,基于Web的搜索引擎已成为最重 要的信息检索工具。
什么是信息检索?
信息检索就是从非结构化的信息集合中 找出与用户需求相关的信息。相应的,信 息检索系统就是用来实现信息检索功能的 计算机软件系统。
• 检索系统的目标就在于检出相关文档而排 除不相关文档
13
评价IR系统的困难
• 相关性不是二值评价,而是一个连续的量 • 即使进行二值评价,很多时候也很难 • 从人的立场上看,相关性是:
– 主观的,依赖于特定用户的判断 – 情景相关的,依赖于用户的需求 – 认知的,依赖于人的认知和行为能力 – 时变的,随着时间而变化
信息检索的评价
• 针对一个检索系统,可以从功能和性能两 个方面对其进行分析评价
• 功能评价
– 可通过测试系统来判定是否支持某项功能,因 此相对来说较容易
• 性能评价
– 对于检索系统的性能来说,除了系统的时间和 空间因素之外,要求检索结果能够按照相关度 进行排序
12
相关性
• 相关性理论假定:对于一个给定的文档集 合和一个用户查询,存在并且只存在一个 与该查询相关的文档集合
1. d123 2. d84 3. d56 4. d6 5. d8
(66%,20%)
6. d9 11. d38
7. d511
12. d48
8. d129 13. d250
9. d187 14. d113
10. d25 15. d3
(50%,30%) (40%,40%)
(33%,50%)
21
平均准确率
19
相关 不相关
准确率和召回率的关系
返回了大多数相关文档 但是包含很多垃圾
1

但是漏掉了很多
相关文本
20
举例
• Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}
• 通过某一个检索算法得到的排序结果:
(100%,10%) (precision, recall)
•信息抽取 •文本分类与聚类 •自动文摘 •链接分析 •分布式信息检索 •Web信息检索
信息检索中的应用研究
•话题检测与跟踪 •信息过滤、垃圾邮件过滤 •对抗式信息检索(adversarial IR) •企业搜索 •数字图书馆 •跨语言检索、多语言检索、为检索服务的 机器翻译 •基于内容的多媒体检索 •基因信息检索
• 处理对象 非结构化信息 现实世界中存在着大量的非结构化信息,除 文本外,还有图像、图形、语音、视频等多 媒体信息。
信息检索的基本流程
与信息检索相关的学科
•自然语言处理 •分布式计算 •数据库 •数据挖掘 •情报学 •社会学
信息检索面临的问题
•处理海量数据量 •评价检索 •处理多源信息
信息检索中的关键技术
互联网信息检索
复习参考
网络信息检索
随着网络技术的飞速发展,信息检索工 作已经由传统的手工文献检索发展到智能 检索。认清网络信息检索的发展趋势,掌 握先进的网络信息检索技术,从浩如烟海 的信息中找到所需的信息,已成为当前重 要而实用的职业技能。
什么是网络信息检索
网络信息检索是由网络站点、网页浏览器和 搜索引擎以及网络支撑组成的检索系统。
搜索引擎
• 搜索引擎是网络信息的检索工具,它可以帮助 用户快速搜索所需信息及其相关资料。
• 搜索引擎是因特网上的一种特殊类型的站点, 通过用户输入所需信息的关键词,经由检索服 务器处理内部数据库,匹配相关资料并整理后 输出,通过网络传给用户使用。
网络信息检索技术的发展现状
信息检索开始于20世纪90年代初。 1991年思维机等公司、明尼苏达大学、欧洲
其中的核心部分,不是众多站点,而是网络浏 览器和具有收集、检索功能的搜索引擎。
众多站点、网页上的信息是网络信息的基本 组成部分。
浏览器
• 在网络发展初期,浏览器和简单的搜索引擎即 可帮助人们检索所需的文献信息。
• 浏览器相当于提供了一个信息总目,提供用户 对各个网站进行直接点击、浏览,通过超文本 链接,选择自己所需的信息。
• 对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。该 集合可由人工方式构造
• 一组评价指标。这些指标反映系统的检索性能。通过比较 系统实际检出的结果文档集和标准的相关文档集,对它们 的相似性进行量化,得到这些指标值
16
相关性判断
• 在早期的检索实验集合中, 相关性判断是全 方位的,就是说, 由专家事先对集合中每一篇 文献与每一个主题的相关性做出判断。
• 由检索评价专家进行人工判断,最终评判出每一 文档的相关性
18
准确率和召回率(查全率和查准率)
全部文本集合
相关文本
检索出的 文本
检出且 不相关
检出且 相关
检出
未检出且 不相关
未检出且 相关
未检出
召回率(Recall)= 检出的相关文档数/相关文档数 准确率(Precision)= 检出的相关文档数/检出文档数 假设:文本集中所有文献已进行 了检查
• 由于TREC 的文献集合如此庞大, 全方位的判 断是不可行的。因此TREC相关性判断基于 检索问题所来自的测试文档集合,并采用 一种“pooling”的技术来完成。
17
“pooling”方法
• 两个假设
– 假设绝大多数的相关文档都收录在这个文档池中 – 没有进行判断的文档即未被认为是不相关的
• “pooling”技术的具体操作方法是:针对某一检 索问题,所有参与其检索试验的系统分别给出各 自检索结果中的前K个文档(例如K=100),将这 些结果文档汇集起来,得到一个可能相关的文档 池“pool”
14
检索的评价
• 检索性能的评价
– 检索结果的准确度
• 检索任务
– 批处理查询 – 交互式查询
• 实验室环境下主要是批处理查询,具 有良好的可重复性和可扩展性
15
在评价和比较检索系统的检索性能需要以下 条件:
• 一个文档集合C。系统将从该集合中按照查询要求检出相 关文档
• 一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了用 户的信息需求
相关主题