当前位置:
文档之家› 第2讲 信息检索概述[精彩]
第2讲 信息检索概述[精彩]
l 图书馆中的信息检索为例
– 第一代:卡片目录自动化系统 OPAC online public access catalogue
– 第二代:增加按主题、关键词、复杂查询 – 第三代:图形界面、数字化、超文本、开放系统框
架、基于Web
27
2021/2/10
信息检索系统开发与设计 第一章
1.3.2 信息检索发展趋势
l 自动标引、自动分类和自动摘录
– 这是探索如何教会计算机去“理解”信息内容,自动识别和提取出文献中的 有用信息和检索标识,自动生成主题标识和非系系统或文摘。
– 是技术难度非常大、诱惑力很强的领域,吸引了众多研究者,并取得了许多 可喜的成果。
l 相关设备
– 包括对信息检索所需的各种设备的研究,如计算机系统、危机与终端设备、 输入输出设备、存贮设备、通讯设施等。
l 系统效益研究
32
2021/2/10
信息检索系统开发与设计 第一章
1.4.2 相关学科及领域
l 计算机科学 l 数学 l 语言学 l 人工智能 l 认知科学
33
2021/2/10
信息检索系统开发与设计 第一章
l 现代: 用文献的所有词集合以及结构来表示成为可 能,检索系统采用文献的全文本(full-text view) 视图逻辑表示。
10
2021/2/10
信息检索系统开发与设计 第一章
1. 2 信息检索系统
l 信息检索系统是由一定的设备和信息集合构成, 面向一定的用户,具有信息采集、组织、存贮、 选择和传播等功能的信息服务设施。
– 本功能模块任务:根据系统的经营方针和服务对象的需要, 以快速、经济的手段,广泛地、连续不断地采集各种信息源, 为系统提供充足而适用的数据来源。
18
2021/2/10
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 标引子系统
– 标引,就是根据一定的规则和程序,对文献内容进 行分析,然后赋予每篇文献以一定数量的内容标识 (分类号、主题词、关键词等),作为存贮与检索 的依据。
的难度。
8
2021/2/10
信息检索系统开发与设计 第一章
文献
着重空格 标点等 处理
停用词 处理
名词 集合
词根 处理
自动或 手工标引
标引 词
结构识别
文
结
全
标
本
构
文
引
结
本
词
构
图1-2 文献的逻辑
2021/2/10
信息检索系统开发与设计 第一章
9
1.1 .2 文献的逻辑表示
l 传统: 一个集合中的文献常常通过标引词或关键词 的集合来表示。
11
2021/2/10
信息检索系统开发与设计 第一章
1. 2 .1 信息检索处理过程
l 定义和建立文本数据库 l 用户提问操作 l 匹配处理
12
2021/2/10
信息检索系统开发与设计 第一章
用户界面
文本操作
逻辑视图
提问操作
用户反馈
查询
检索得文献
排序
排序文献
文本 文本
标引 倒排文档
索引
数据库管理 者模块
– 命令语言:是指系统提供给用户的检索命令集合,包括基本命令 (如检索开始、结束、选词、组配、显示、打印等)和扩充集(如 截词、位置运算、限制检索、暂存检索策略、套录下载等)。
– 信息显示:指系统以屏幕显示形式提供给用户的各种信息,如菜单、 窗口、帮助信息、错误信息等。
– 反馈机制,即系统 对用户反馈的信息所做出的反应或操作。
– 标引作业通常与文献编目和文摘工作一起进行,然 后把标引结果和其他描述事项填入工作单,交录入 员去录入计算机中。
19
2021/2/10
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 建库子系统
– 任务是建立和维护可直接用于计算机检索的数据库。 – 作业内容主要包括数据录入、错误检查与处理、数
l 数据库 l 联机信息检索与网络信息检索
– 是目前信息检索的主要方式,最为便利,使用也最广。涉及到许多计算机设 备、软件技术、存贮技术、检索技术、系统管理和经营知识、市场营销技术 等。
l 检索策略与方法
– 任务是利用、研究、评价和完善现有的各种检索策略和方法,研究开发新的 更有效的策略和方法。
31
2021/2/10
信息检索系统开发与设计 第一章
1.4.1 信息检索的研究对象
l 用户研究与培训
– 研究用户的心理、需求类型与特点、用户查询信息的行为特征等,然后建立 响应的用户模型,作为系统设计以及制定系统营销策略的依据。
– 用户培训是用户研究的继续,是与用户建立机密联系和发展新用户的一种非 常有效的措施,需要研究各种方式的效果及强化培训效果的各种手段。
据格式转换、生成并定期更新各种文档。
20
2021/2/10
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 词表管理子系统
– 功能是管理维护系统中已有的主题词表,使它与标 引、建库等子系统相连接,支持用户的各种词汇查 询操作,从提问、对话或其它文本中采集词汇、信 息,以及输出各种形式的词汇数据或词表产品(从 个别词目、词间关系、词频数据到整部词表)。
于机器处理的目标提问式。 l 检索,即从数据库中读入一批记录,与提问式进行比较,把满
足要求的记录记入输出文档。
23
2021/2/10
信息检索系统开发与设计 第一章
l 1硬.件2部.分3 信息检索系统的物理构成
– 主计算机 – 外围设备 – 数据处理或传送相关设备
l 软件部分
– 系统软件 – 应用软件:数据库管理系统,建库程序,数据输入输出程序,自动标引
第2讲 信息检索概述[精彩]
1.1 信息检索基本原理
l 信息检索的基本目标:
检索出所有与用户提问相关的文献,同时尽可能检 出更少的不相关文献。
l 相关信息的有效检索涉及两个方面
l 用户任务 l 文献的逻辑表示
4
2021/2/10
信息检索系统开发与设计 第一章
1.1 .1 信息检索中用户任务
检索 浏览
程序,文件管理程序,词表管理程序,检索程序,记帐统计程序等
l 数据库
– 磁媒体数据库 – 光盘数据库 – 多媒体数据库
24
2021/2/10
信息检索系统开发与设计 第一章
1.3 信息检索简史与趋势
l 信息检索发展分期 l 信息检索发展趋势
25
2021/2/10
信息检索系统开发与设计 第一章
1.3.1 信息检索发展分期
l 50年代:探索与试验时期 l 60年代:实用化时期 l 70年代:联机服务市场化与网络化时期 l 80年代:最终用户检索发展与多元化时期 l 90年代:Web搜索引擎发展时期 l 21世纪:网络化与智能信息检索时期
26
2021/2/10
信息检索系统开发与设计 第一章
1.3.1 信息检索发展分期
22
2021/2/10
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 提问处理子系统
– 负责处理用户输入的检索词或提问式,并将它们与数据库中 存贮的数据进行比较运算,然后把运算结果输出给用户。
– 该模块主要由检索程序构成:
l 接收提问 l 提问校验:包括语法检查、格式检查和用词检查。 l 提问加工:指对源提问式进行解释性或编译性的加工,生成便
1.4.1 信息检索的研究对象
l 信息检索理论
– 主要包括检索语言与标引理论,信息检索的数学模型,知识表示理论,“相 关性”理论以及有关的哲学问题。
l 信息检索系统
– 主要研究信息检索系统的结构、功能、演变,它的设计开发技术、管理维护 技术和评价技术,还研究它与其他信息系统乃至整个外部世界的关系。
l Web对信息检索系统的巨大影响
– Low cost : 是最便宜的存取各类信息源的系统,因 而吸引更多的用户;
– Great access: 数字通信技术的进步提供了更强的 接入能力,无论是本地还是远程;
– Publishing freedom: 人类历史上第一次,能够自由 地发布和获取大量信息。
21
2021/2/10
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 用户接口子系统
– System-user interface,是面向系统用户的一种人---机接口。它承担 用户与系统之间的通讯功能,是二者之间实现通讯不可缺少的连接 系统(软硬件)。
– 用户模型:是系统建立的用户认知模型,可以用来增强人、机接口 的人性,使系统能考虑不同用户的不同需要、技能和经验等人类工 程学因素。
28
2021/2/10
信息检索系统开发与设计 第一章
1.3.2 信息检索发展趋势
l IR面临的问题和挑战
– 相关性信息的获取; – 更快速的提问响应; – 基于用户行为的新检索系统开发和设计;
Hale Waihona Puke 292021/2/10信息检索系统开发与设计 第一章
1.4 信息检索学科研究范围
l 信息检索的研究范围包括一切与信息存储检索有关的 系统、过程、理论和方法。
数据库
图 1-1 信息检索中用户任务
5
2021/2/10
信息检索系统开发与设计 第一章
1.1 .1 信息检索中用户任务
l 检索 retrieval
– 用户将其信息需求和问题翻译成检索系统要求的提 问式(query),系统匹配后,提交相关文献。
l 浏览 browsing