当前位置:
文档之家› [宝典]第2讲 信息检索概述
[宝典]第2讲 信息检索概述
l 50年代:探索与试验时期 l 60年代:实用化时期 l 70年代:联机服务市场化与网络化时期 l 80年代:最终用户检索发展与多元化时期 l 90年代:Web搜索引擎发展时期 l 21世纪:网络化与智能信息检索时期
26
2021/1/20
信息检索系统开发与设计 第一章
1.3.1 信息检索发展分期
1.1 .1 信息检索中用户任务
l 检索 retrieval
– 用户将其信息需求和问题翻译成检索系统要求的提 问式(query),系统匹配后,提交相关文献。
l 浏览 browsing
– 使用交互式界面翻阅整个文献集合,以找出感兴趣 的相关文献。
6
2021/1/20
信息检索系统开发与设计 第一章
1.1 .1 信息检索中用户任务
文本 数据库
图1-3 检索处理过程
2021/1/20
信息检索系统开发与设计 第一章
13
1. 2 .1 信息检索处理过程
l 文本数据库由数据库管理者模块建立
– 确定使用的信息条目范围 – 文本操作处理 – 定义文本的逻辑视图, 建立索引
14
2021/1/20
信息检索系统开发与设计 第一章
1. 2 .1 信息检索处理过程
– 标引作业通常与文献编目和文摘工作一起进行,然 后把标引结果和其他描述事项填入工作单,交录入 员去录入计算机中。
19
2021/1/20
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 建库子系统
– 任务是建立和维护可直接用于计算机检索的数据库。 – 作业内容主要包括数据录入、错误检查与处理、数
28
2021/1/20
信息检索系统开发与设计 第一章
1.3.2 信息检索发展趋势
l IR面临的问题和挑战
– 相关性信息的获取; – 更快速的提问响应; – 基于用户行为的新检索系统开发和设计;
29
2021/1/20
信息检索系统开发与设计 第一章
1.4 信息检索学科研究范围
l 信息检索的研究范围包括一切与信息存储检索有关的 系统、过程、理论和方法。
l 图书馆中的信息检索为例
– 第一代:卡片目录自动化系统 OPAC online public access catalogue
– 第二代:增加按主题、关键词、复杂查询 – 第三代:图形界面、数字化、超文本、开放系统框
架、基于Web
27
2021/1/20
信息检索系统开发与设计 第一章
1.3.2 信息检索发展趋势
l 一切可供存贮和检索利用的信息类型,如文献、数据、 事实、知识、声音、图形等;各种细心你间作系统及 其运行过程,如信息采集、标引、组织、存贮、处理、 匹配、输出、传送等;各种过程中使用的方法,以及 在信息检索实践和研究的基础上形成的各种理论和假 设,均包括在这个范围内。
30
2021/1/20
信息检索系统开发与设计 第一章
l Web对信息检索系统的巨大影响
– Low cost : 是最便宜的存取各类信息源的系统,因 而吸引更多的用户;
– Great access: 数字通信技术的进步提供了更强的 接入能力,无论是本地还是远程;
– Publishing freedom: 人类历史上第一次,能够自由 地发布和获取大量信息。
2021/1/20
信息检索系统开发与设计 第一章
1.4.1 信息检索的研究对象
l 用户研究与培训
– 研究用户的心理、需求类型与特点、用户查询信息的行为特征等,然后建立 响应的用户模型,作为系统设计以及制定系统营销策略的依据。
– 用户培训是用户研究的继续,是与用户建立机密联系和发展新用户的一种非 常有效的措施,需要研究各种方式的效果及强化培训效果的各种手段。
21
2021/1/20
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 用户接口子系统
– System-user interface,是面向系统用户的一种人---机接口。它承担 用户与系统之间的通讯功能,是二者之间实现通讯不可缺少的连接 系统(软硬件)。
– 用户模型:是系统建立的用户认知模型,可以用来增强人、机接口 的人性,使系统能考虑不同用户的不同需要、技能和经验等人类工 程学因素。
信息检索系统开发与设计 第一章
文献
着重空格 标点等 处理
停用词 处理
名词 集合
词根 处理
自动或 手工标引
标引 词
结构识别
文
结
全
标
本
构
文
引
结
本词构来自图1-2 文献的逻辑2021/1/20
信息检索系统开发与设计 第一章
9
1.1 .2 文献的逻辑表示
l 传统: 一个集合中的文献常常通过标引词或关键词 的集合来表示。
l 系统效益研究
32
2021/1/20
信息检索系统开发与设计 第一章
1.4.2 相关学科及领域
l 计算机科学 l 数学 l 语言学 l 人工智能 l 认知科学
33
2021/1/20
信息检索系统开发与设计 第一章
22
2021/1/20
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 提问处理子系统
– 负责处理用户输入的检索词或提问式,并将它们与数据库中 存贮的数据进行比较运算,然后把运算结果输出给用户。
– 该模块主要由检索程序构成:
l 接收提问 l 提问校验:包括语法检查、格式检查和用词检查。 l 提问加工:指对源提问式进行解释性或编译性的加工,生成便
据格式转换、生成并定期更新各种文档。
20
2021/1/20
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 词表管理子系统
– 功能是管理维护系统中已有的主题词表,使它与标 引、建库等子系统相连接,支持用户的各种词汇查 询操作,从提问、对话或其它文本中采集词汇、信 息,以及输出各种形式的词汇数据或词表产品(从 个别词目、词间关系、词频数据到整部词表)。
于机器处理的目标提问式。 l 检索,即从数据库中读入一批记录,与提问式进行比较,把满
足要求的记录记入输出文档。
23
2021/1/20
信息检索系统开发与设计 第一章
l 1硬.件2部.分3 信息检索系统的物理构成
– 主计算机 – 外围设备 – 数据处理或传送相关设备
l 软件部分
– 系统软件 – 应用软件:数据库管理系统,建库程序,数据输入输出程序,自动标引
l 传统检索系统:数据检索或信息检索 l 超文本系统:快速浏览 l 电子图书馆与Web搜索引擎系统:检索与浏览
的结合。
7
2021/1/20
信息检索系统开发与设计 第一章
1.1 .2 文献的逻辑表示
l 全文本 —— 标引词的集合 l 目的:降低文献表示的复杂性,和计算机处理
的难度。
8
2021/1/20
– 信息源选择采集子系统 – 标引子系统 – 建库子系统 – 词表管理子系统 – 用户接口子系统 – 提问处理子系统
17
2021/1/20
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 信息源选择采集子系统
– 信息源是检索系统的信息或数据来源,目前,信息 检索系统 中的数据主要来自各种公开文献,如一次文献中的期刊、图 书、研究报告、会议论文、专利文献、政府出版物、学位论 文、二次文献中的文摘、索引和目录,三次文献中的百科全 书、专科词典,名录、指南、手册等,有些系统还收录各种 机构的内部资料,如实验记录、测试或观测结果、工程设计 资料、统计资料等。
程序,文件管理程序,词表管理程序,检索程序,记帐统计程序等
l 数据库
– 磁媒体数据库 – 光盘数据库 – 多媒体数据库
24
2021/1/20
信息检索系统开发与设计 第一章
1.3 信息检索简史与趋势
l 信息检索发展分期 l 信息检索发展趋势
25
2021/1/20
信息检索系统开发与设计 第一章
1.3.1 信息检索发展分期
l 自动标引、自动分类和自动摘录
– 这是探索如何教会计算机去“理解”信息内容,自动识别和提取出文献中的 有用信息和检索标识,自动生成主题标识和非系系统或文摘。
– 是技术难度非常大、诱惑力很强的领域,吸引了众多研究者,并取得了许多 可喜的成果。
l 相关设备
– 包括对信息检索所需的各种设备的研究,如计算机系统、危机与终端设备、 输入输出设备、存贮设备、通讯设施等。
1.4.1 信息检索的研究对象
l 信息检索理论
– 主要包括检索语言与标引理论,信息检索的数学模型,知识表示理论,“相 关性”理论以及有关的哲学问题。
l 信息检索系统
– 主要研究信息检索系统的结构、功能、演变,它的设计开发技术、管理维护 技术和评价技术,还研究它与其他信息系统乃至整个外部世界的关系。
[宝典]第2讲 信息检索概述
本章主要内容
l 信息检索基本原理 l 信息检索系统 l 信息检索发展历史与趋势 l 信息检索学科研究范围
2
2021/1/20
信息检索系统开发与设计 第一章
1.1 .1 信息检索中用户任务
检索 浏览
数据库
图 1-1 信息检索中用户任务
5
2021/1/20
信息检索系统开发与设计 第一章
l 现代: 用文献的所有词集合以及结构来表示成为可 能,检索系统采用文献的全文本(full-text view) 视图逻辑表示。
10
2021/1/20
信息检索系统开发与设计 第一章