当前位置:文档之家› 信息检索的基本原理与方法

信息检索的基本原理与方法

算、比较和数学推导,也包括非数值数据 (如事实、概念、思想、知识等) 的检索、比较、演绎和 逻辑推理。
它要求检索系统不仅能够从数据 (事实) 集合中查出原来存入的数据或事实,还能够从已有的
基本数据或事实中推导、演绎出新的数据或事实。
例如,该系统中存储有如下事实:①李明是A校的学生。②A 校的学生都学外语。如果该系统
(3)、光电检索:即把检索标识变成黑白点矩阵或条形码,存储在缩微胶片 (卷)上,利用光电效应, 通过检索机械进行查找。
(4)、计算机检索:即把情报及其检索标识转换成电子计算机可以 阅读的二进制编码,存储在磁性载体上,由计算机根据程序进 行查找与输出。根据检索者同计算机进行的不同通信方式,计 算机检索又可以分为脱机检索、联机检索及多机网络化检索等。
信息检索的意义和作用主要是能有效提高人们检索信息和利 用信息的效率。对大学生来说,文献信息检索是培养学生能 力的基本技能和方法之一,最主要的是自学能力、研究能力、 思维能力、表达能力和组织管理能力的培养,是科学研究不 可缺少的一项工作。
具体地说信息检索有下面三个方面的作用:
(1).信息检索是获取知识的捷径
检索标识是信息存储时,对信息内容进行分析提出能代表信息内容实 质的主题词、分类号或其它符号,硅藻土、通用塑料、工程塑料、特种 塑料等、聚氯乙烯、聚乙烯、聚丙烯、聚酰胺、聚酰亚胺、聚酯、玻璃 钢等都是检索标识。
检索时,将提问特征与检索标识进行对比匹配,若达到一致或部分一 致,即为所需信息。
2、信息检索的起源
(3).信息检索是终身教育的基础
学校培养学生的目标是学生的智能:包括自学能力、研究能力、思维能
力、表达能力和组织管理能力。
联合国教文组织提出,教育已扩大到一个人的整个一生,认为唯有全面
的终身教育才能够培养完善的人,可以防止知识老化,不断更新知识,适应
当代信息社会发展的需求。
第二节 信息检索系统
1、信息检索系统的概念 信息检索系统是指根据一定的需要,为进行信息传递而建立的一种有序
信息检索的过程往往需要一个评价反馈途径,多次比 较匹配,以获得最终的检索结果。其图示如下:
5、信息检索的意义
本世纪以来,人类创造的信息量高速增长,据估算,1950年 前后,人类知识总量翻一番大约需要50年,到2020年时,人 类知识总量翻一番只需73天。70年代以来全世界每年出版图 书50万种以上、期刊10万种以上、专利约50万件、科技报告 约90万件、会议文献10多万篇、产品样本50多万种,每年发 表的科技论文总数近500万篇,并呈指数式增长。
美国普林斯顿大学物理系一个年轻大学生名叫约瀚·菲利普,在图书馆
里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。
他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛
原子弹3/4的威力),造价低(当时仅需两千美元),致使一些国家(法国、巴
基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。
得的。
(2) .信息检索是科学研究的向导
美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验时, 发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题, 事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇 中加入2%的水即可,检索这篇文献的时间是10多分钟。在科研开发领域里, 重复劳动在世界各国都不同程度地存在。据统计,美国每年由于重复研究所 造成的损失,约占全年研究经费的38%,达20亿美元之巨。日本有关化学化 工方面的研究课题与国外重复的,大学占40%、民间占47%、国家研究机构 占40%,平均重复率在40%以上;我国的重复率则更高。
二十世纪七十年代,美国核专家泰勒收到一份题为《制造核弹的方法》
的报告,他被报告精湛的技术设计所吸引,惊叹地说:“至今我看到的报
告中,它是最详细、最全面的一份。”但使他更为惊异的是,这份报告竟
出于哈佛大学经济专业的青年学生之手,而这个四百多页的技术报告的全
部信息来源又都是从图书馆那些极为平常的、完全公开的图书资料中所获
辑推理能力和自然语言理解功能。
以上三种信息检索类型的主要区别在于:数据检索和事实检索是要检索出包含在文献中的信
息本身,而文献检索则检索出包含所需要信息的文献即可。
(二)按检索手段划分:手工检索 、机械检索 、计算机检索
(1)、手工检索(manual retrieval):是一种传统的检索方法,即以手工翻 检的方式,利用工具(包括图书、期刊、目录卡片等)来检索信息的一种检 索手段。
信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首 先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和 用户服务项目。 随着1946年世界上第一台电子计算机问世,计算机技 术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量 情报检索系统、联机实时情报检索系统 ,相继研制成功并商业化,20世 纪60年代到80年代,在信息处理技术、通讯技术、计算机和数据库技术 的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广 泛的应用。Dialog国际联机情报检索系统是这一时期的信息检索领域的 代表,至今仍是世界上最著名的系统之一。
☺ 目录 ☺ 题录 ☺ 文摘 ☺ 索引
A、目录:
目录的定义:
目录(Catalog)是以完整的出版单元(如一种图书、一种期刊)为单位,按照 一定次序编排的对文献信息进行描述和报道的工具,也称书目。目录对文 献的描述比较简单,每条记录的字段主要包括:文献题名、责任者、出版 事项、分类号、主题词等。一种出版物经过如此描述后形成一条记录,将 所有的记录组织起来就形成了目录。
(2)、信息的需求分析和检索过程。分析用户的信息需求,利用组织好的检索 系统,按照系统提供的检索方法和途径检索有关信息——检索系统的应用过 程。
因此,信息检索的实质是将描述用户所需信息的提问特征与信息存
储的检索标识进行比较,从中找出与提问特征一致或基本一致的信息。
所谓提问特征就是对信息的需求分析后,从中选出能代表信息需求的 主题词、分类号或其它符号。
各种数据库,检索灵活、检索入口多、速度快、效率高。计算机信息检索系统又可分为:光盘 检索系统、联机检索系统和网络检索系统。
(2)、按收录范围划分划分,可以分为:综合性检索系统、专业性检索系 统和单一性检索系统
A、综合性检索系统:收录范围是多学科的,适用于检索不同学科专业文献,如美国《医学索 引》、《中文科技资料目录》系列分册。
例如:要查找“硅藻土在塑料工业中的应用”方面的信息,根据信息 需求的范围和深度,可选择“硅藻土”和“塑料”为第一层的提问特征, “硅藻土”和“通用塑料、工程塑料、特种塑料等”为第二层面的提问 特征,“硅藻土”、“聚氯乙烯、聚乙烯、聚丙烯、聚酰胺、聚酰亚胺、 聚酯,玻璃钢”等塑料品种名称作为第三层面的提问特征。
一方面是用户的信息需求, 一方面是组织有序的文献信息集 合,检索就是从用户特定的信息需求出发,对特定的信息集 合采用一定的方法、技术手段,根据一定的线索与规则从中 找出(search, locate, hit) 相关的信息。
匹配有其匹配标准,这里涉及到两者一致性、相关度等问题, 按一定的标准筛选出符合要求的信息。
目录是对出版物按其外表特征进行著录而成,以书或刊作为目录的基本单 位。
揭示与报道文献的外表特征和内容梗概,为学习、生产和科研工作者提供 有关文献的信息,是目录的基本社会职能。
目录类型 :
图书馆目录种类繁多。其职 能各异,可以从不同角度进 行区分:
①按目录反映的藏书范围区 分为:
馆藏目录 :反映一个图书 馆全部馆藏的目录。如中国 国家图书馆馆藏目录
计算机检索的特点: 检索方便快捷; 检索功 能强大; 获得信息类型多; 检索范围广泛。
其中现在发展比较迅速的计算机检索是 “网络信息检索”,也即网络信息搜索,是 指互联网用户在网络终端,通过特定的网络 搜索工具或是通过浏览的方式,查找并获取 信息的行为。
4、检索的基本原理
信息检索基本原理的核心是用户信息需求与文献信息集合的 比较和选择, 是两者匹配(match)的过程。
联合目录:反映一个地区或 一个系统甚至全国或世界范 围的图书馆、信息服务机构 文献收藏情况的一种统一目 录 。如CALIS联合目录
②按目录的组织方法区分为字顺目录和分类目录。字顺目录又分题名目 录、责任者(著者)目录、主题目录等。
第二章 信息检索的基本原理与方法
第一节 第二节 第三节 第四节 第五节 第六节
信息检索的基本原理 信息检索系统 信息检索语言 信息检索的基本技术 信息检索的方法和步骤 信息检索效果评价
第一节 信息检索的基本原理
1、信息检索的概念
信息检索(Information Retrieval) :是指将信息按一定的方式组织和存储起来,并 根据用户的需要找出有关信息的过程,所以它的全称又叫“信息的存储与检索。
B、专业性检索系统:收录范围仅限于某一学科或专业,专业性强,如《荷兰医学文摘》、 《中国医学文摘》,按学科分类检索,如科技人员检索特定专业,内容更集中、系统。
C、单一性检索系统 :收录文献只限于某一特定类型的范围,如专利文献,以新技术发明作为 检索对象。
(3)、按照描述文献信息特征的方式不同、 用途不同,又可分为:
报道文献信息、存储文献信息、检索文献信息
3、信息检索系统的类型
(1)、按照信息检索所采用的设备和手段划分:可分为手工信息检索系统和计 算机信息检索系统
A、手工信息检索系统:手工检索系统是以手工方式存贮和检索信息的系统。检索时使用各种纸 质工具,检索入口少、速度慢、效率较低。
手工信息检索系统又可分为:书本式检索系统和卡片式检索系统 B、计算机信息检索系统:计算机检索系统是用计算机进行信息存贮和检索的系统。检索时使用
手工检索不需要特殊的设备,用户根据所检索的对象,利用相关的检索工具就可
相关主题