当前位置：文档之家› 信息检索复习

信息检索复习

高能粒子协会分别推出了因特网上的检索工具WAIS、GOTHER和WWW。目前,WWW因其集文本、图像、声音等多媒体信息于一体的巨大优点,已占信息服务的主导地位,基于Web的搜索引擎已成为最重要的信息检索工具。
什么是信息检索？
信息检索就是从非结构化的信息集合中找出与用户需求相关的信息。相应的，信息检索系统就是用来实现信息检索功能的计算机软件系统。
• 检索系统的目标就在于检出相关文档而排除不相关文档
13
评价IR系统的困难
• 相关性不是二值评价，而是一个连续的量 • 即使进行二值评价，很多时候也很难 • 从人的立场上看，相关性是：
– 主观的，依赖于特定用户的判断 – 情景相关的，依赖于用户的需求 – 认知的，依赖于人的认知和行为能力 – 时变的，随着时间而变化
信息检索的评价
• 针对一个检索系统，可以从功能和性能两个方面对其进行分析评价
• 功能评价
– 可通过测试系统来判定是否支持某项功能，因此相对来说较容易
• 性能评价
– 对于检索系统的性能来说，除了系统的时间和空间因素之外，要求检索结果能够按照相关度进行排序
12
相关性
• 相关性理论假定：对于一个给定的文档集合和一个用户查询，存在并且只存在一个与该查询相关的文档集合
1. d123 2. d84 3. d56 4. d6 5. d8
(66%,20%)
6. d9 11. d38
7. d511
12. d48
8. d129 13. d250
9. d187 14. d113
10. d25 15. d3
(50%,30%) (40%,40%)
(33%,50%)
21
平均准确率
19
相关不相关
准确率和召回率的关系
返回了大多数相关文档但是包含很多垃圾
1
理
但是漏掉了很多
相关文本
20
举例
• Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}
• 通过某一个检索算法得到的排序结果：
(100%,10%) (precision, recall)
•信息抽取 •文本分类与聚类 •自动文摘 •链接分析 •分布式信息检索 •Web信息检索
信息检索中的应用研究
•话题检测与跟踪 •信息过滤、垃圾邮件过滤 •对抗式信息检索(adversarial IR) •企业搜索 •数字图书馆 •跨语言检索、多语言检索、为检索服务的机器翻译 •基于内容的多媒体检索 •基因信息检索
• 处理对象非结构化信息现实世界中存在着大量的非结构化信息，除文本外，还有图像、图形、语音、视频等多媒体信息。
信息检索的基本流程
与信息检索相关的学科
•自然语言处理 •分布式计算 •数据库 •数据挖掘 •情报学 •社会学
信息检索面临的问题
•处理海量数据量 •评价检索 •处理多源信息
信息检索中的关键技术
互联网信息检索
复习参考
网络信息检索
随着网络技术的飞速发展,信息检索工作已经由传统的手工文献检索发展到智能检索。认清网络信息检索的发展趋势，掌握先进的网络信息检索技术，从浩如烟海的信息中找到所需的信息,已成为当前重要而实用的职业技能。
什么是网络信息检索
网络信息检索是由网络站点、网页浏览器和搜索引擎以及网络支撑组成的检索系统。
搜索引擎
• 搜索引擎是网络信息的检索工具,它可以帮助用户快速搜索所需信息及其相关资料。
• 搜索引擎是因特网上的一种特殊类型的站点, 通过用户输入所需信息的关键词,经由检索服务器处理内部数据库,匹配相关资料并整理后输出,通过网络传给用户使用。
网络信息检索技术的发展现状
信息检索开始于20世纪90年代初。 1991年思维机等公司、明尼苏达大学、欧洲
其中的核心部分,不是众多站点,而是网络浏览器和具有收集、检索功能的搜索引擎。
众多站点、网页上的信息是网络信息的基本组成部分。
浏览器
• 在网络发展初期,浏览器和简单的搜索引擎即可帮助人们检索所需的文献信息。
• 浏览器相当于提供了一个信息总目,提供用户对各个网站进行直接点击、浏览,通过超文本链接,选择自己所需的信息。
• 对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。该集合可由人工方式构造
• 一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集，对它们的相似性进行量化，得到这些指标值
16
相关性判断
• 在早期的检索实验集合中, 相关性判断是全方位的,就是说, 由专家事先对集合中每一篇文献与每一个主题的相关性做出判断。
• 由检索评价专家进行人工判断，最终评判出每一文档的相关性
18
准确率和召回率（查全率和查准率）
全部文本集合
相关文本
检索出的文本
检出且不相关
检出且相关
检出
未检出且不相关
未检出且相关
未检出
召回率(Recall)= 检出的相关文档数/相关文档数准确率(Precision)= 检出的相关文档数/检出文档数假设：文本集中所有文献已进行了检查
• 由于TREC 的文献集合如此庞大, 全方位的判断是不可行的。因此TREC相关性判断基于检索问题所来自的测试文档集合，并采用一种“pooling”的技术来完成。
17
“pooling”方法
• 两个假设
– 假设绝大多数的相关文档都收录在这个文档池中 – 没有进行判断的文档即未被认为是不相关的
• “pooling”技术的具体操作方法是：针对某一检索问题，所有参与其检索试验的系统分别给出各自检索结果中的前K个文档（例如K=100），将这些结果文档汇集起来，得到一个可能相关的文档池“pool”
14
检索的评价
• 检索性能的评价
– 检索结果的准确度
• 检索任务
– 批处理查询 – 交互式查询
• 实验室环境下主要是批处理查询，具有良好的可重复性和可扩展性
15
在评价和比较检索系统的检索性能需要以下条件：
• 一个文档集合C。系统将从该集合中按照查询要求检出相关文档
• 一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了用户的信息需求

e商务文档

信息检索复习

相关文档推荐：