信息检索原理与技术资料整理华中师范大学信息检索原理与技术第一章信息检索概论1.1信息检索基础简述1.信息:事物发出的信号所包含的内容。
2.知识:知识是人类的主观世界对客观世界的概括和反映,是大量有组织的信息,是关于事实和思想的有组织的陈述,提供某种思考的判断和某种实验的结果。
3.知识的分类:①“知事”(know-what):指关于事实方面的知识,也可理解为know-when、know-where,即在什么样的时间(know-when)、什么样的地点或条件下(know-where)能解决什么样的问题。
②“知因”(know-why):指自然原理和规律方面的科学理论,知识的产生是在专门研究机构如实验室和大学完成的。
③“知道怎样做的知识”(know-how):指做某些事情的技艺和能力,被称为技术情报和商业秘密,其典型是企业开发和保存于其内部的技术诀窍或专有技术。
④“谁以及是怎样创造知识的”(know-who):侧重对创造思想、方法、手段、过程及特点等的了解。
4.文献:文献是记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。
构成三要素:①构成文献内核的知识信息②负载知识信息的物质载体③记录知识信息的符号和技术特点:知识性(本质)、传递性、动态性。
分类标准:内容加工程度划分:①一次文献信息:指作者以自己的研究成果为基础创作和撰写的、未经过加工的原始文献。
②二次文献信息:指对一次信息加工整理而成的文献,如目录、文摘、索引等各种书目信息,它具有汇集性。
③三次文献信息:是对一次、二次信息综合、分析等深加工的产物,如评论、进展报告、评述、百科全书、年鉴、指南、期刊书目等。
载体形式划分:书写型、印刷型、缩微型、声像型、机读型五大类。
5.文献信息链:文献作为人类文化信息的承载物,从其产生、替代、反复被利用、再创造,直至产生新知识,是一个不断演进的运动过程。
6.信息、知识和文献三者之间的关系(重点):信息>知识>文献信息、知识和文献的联系在于:信息作为物质的一种普遍属性,是生物以及具有自动控制系统的机器通过感觉器官和相应的设备与外界进行交换的一切内容。
它是有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制的;知识作为信息的一部分,是一种特定的人类信息,也是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映。
它是无形的、与行动和决策相关、经过处理能改变思维、精神产品、环境改变含义、经过学习才能转让、无法复制的;文献是知识的一部分,是进入人类社会交流系统的运动着的知识。
具体来说,三者之间的关系为:信息>知识>文献。
7.文献信息流(重点和难点)一次文献信息流发展壮大后,难以被掌握和利用,于是文献信息服务机构对一次文献进行书目控制和重新组织,使得其进入到有序化阶段。
这一阶段由三个环节组成。
①替代:描述文献特征,对一次文献信息进行不同程度的提炼或压缩,形成目录、文摘、索引等二次文献信息。
②改组:从一次文献信息中提取数据、事实和结论,重新组合,形成手册、名录、辞典等类型的文献信息。
③综合:利用二次文献对一次文献所包含的知识加以综合并融入到现有的知识体系中,成整个知识体系的有机组成部分。
如专著、教科书、综述等。
文献信息流的继续演变是对二次文献信息流的书目控制和改组,即进入“二次替代”过程,其结果是“书目之书目”、“文献指南”之类的工具。
文献信息流是一个以研究活动为起点,按顺时针的线性顺序移动,是一次、二次、三次文献信息的演变过程。
1.2信息检索概念和原理1.信息检索:是从信息集合中识别和获取信息的过程,本质是用户的信息需求和一定的信息集合的匹配。
广义:信息的存储和检索。
狭义:信息的检索。
信息的存储:主要包括在某一专业或领域范围内的信息选择的基础上对信息的内外特征进行描述、加工并使其有序化,形成信息集合。
信息的检索:是指借助一定的设备和工具,采用一系列的方法与策略从信息集合中查询所需的信息。
2.信息检索类型:手工检索:简称“手检”,主要使用印刷型信息检索工具,其检索过程就是大脑分析、思考和手工操作的配合过程。
计算机检索:简称“机检”,主要使用计算机信息检索系统(包括各种数据库、应用软件、通信设施等),检索过程就是人的设计操作和计算机自动化处理相结合的过程。
3.信息检索系统:信息检索系统是指为了满足用户的信息需求而建立的存储,经过加工了的信息集合,拥有一定的输入、匹配、输出的技术装备,提供一定的检索服务功能的一种相对独立的实体。
4.信息检索入口:信息检索入口又称检索点或检索标识,是指用以标识信息的外部特征和内部特征的属性值的集合。
5.信息检索的一般原理:包括信息的存储与检索两个过程。
建立文本数据库=》建立文本索引(通常采用倒排档)=》用户明确自己的信息需求=》产生检索提问=》构造检索提问表达式=》产生检索结果=》不满意则修改表达式=》产生满意结果1.3检索系统与检索工具1.检索系统的构成:检索系统的构成包括物理构成和逻辑构成。
2.从物理构成的角度来考察,检索系统一般包括硬件、软件和数据库三个组成部分。
①硬件:是计算机检索系统采用的各种硬件设备的总称。
②软件:包括与计算机检索相关的各种系统软件及相关应用软件。
③数据库:至少由一种文档组成,并能满足某一特定目的或某一数据处理系统需要的一种数据集合。
3.数据库分为以下类型:①参考型数据库:它是指引用户到另一信息源以获得原文或其他细节的一类数据库,包括书目数据库和指南数据库。
书目数据库就是指存储某个领域的二次文献的一类数据库。
指南数据库是指存储某些对象的简要描述,指引用户从其他源获取更详细信息的一类数据库。
②源数据库:它是指提供原始资料或具体数据的自足性数据库,它包含数值数据库、文本-数值数据库、全文数据库、术语数据库、图像数据库以及音视频数据库。
(2014和2015名词解释)③混合型数据库:它是指能存储多种不同类型数据的数据库。
4.不管检索系统的物理构成如何,它们的逻辑构成都是相同的或基本相同的,一般由以下六个子系统构成。
①文献与数据的选择与抽取子系统该子系统的功能是从外部信息源输入,输入时按照系统既定方针和用户需求进行选择。
选择标准包括专业覆盖面、文献信息类型、摘储率、文种、时间跨度等。
1)专业覆盖面:就检索系统的数据库对文献和知识的学科专业的覆盖面来说,有综合性检索系统、多学科检索系统、专业检索系统。
2)摘储率:对于某一专业领域,抽取的信息占该领域所有信息的比率。
②词表子系统数据库中所收录的知识与文献,需要依靠使用一定的检索语言来加以表征和组织;另外,检索者的检索提问也需借助检索语言来表达。
这样才能使存储与检索得到有效的沟通和控制,保证检索系统达到令人满意的查准率与查全率,减少漏检与误检。
采用词表控制的检索系统称为控制词汇的检索系统。
随着计算机为主体的现代信息技术在信息处理领域的广泛应用,关键词、自由词等一些无词表控制的检索语言的应用逐步推广,因而出现了一些非控制词汇的情报检索系统。
它又可分为完全的自然语言检索系统和后控制的自然语言检索系统。
后控制的自然语言检索系统在系统内设有只供检索用的后控制词表,这种词表没有预先编定的形式,而是通过检索者的使用,将检索式中用“或“逻辑相连的检索词,由机器提取并逐步累积起来的一组一组的词表。
在检索时,由系统自动纳入检索式,进行扩检。
但对检索者来说,后控制的自然语言检索系统使用的是自然语言。
“后控制“的过程对检索用户来说是透明的。
【2015名词解释】③标引子系统按照一定的词表,对文献赋予标引词,以表征文献的特征,形成文献的标识,这一过程就是标引。
依据这个子系统,情报检索系统可分为人工标引的检索系统和机器标引的检索系统。
对于完全自然语言的检索系统来说,可能根本就不进行标引,这种情况成为无标引或全标引。
④查询子系统把用户的需求,经过概念分析,转换成系统语言的词汇,并指出其逻辑关系的过程。
具体来说就是构造检索策略的过程。
⑤用户与系统交互子系统该系统即检索系统向用户提供实现其检索过程的手段。
⑥匹配子系统该子系统的功能是对文献的标引记录和提问的检索策略进行对比并决定取舍。
5.检索工具的体系结构和功能【2015年简答】(1)结构一部体系完整的检索工具通常由以下五个部分组成。
①编辑说明与凡例编辑说明与凡例通常放在检索工具的开头部分。
1)编辑说明一般向用户揭示该检索工具的编辑目的、收录范围、选材原则、适用对象、出版沿革、总体结构、各部分的用途及用法等。
编辑说明的作用是向用户介绍该检索工具的概貌,以便用户确认该工具是否合适自己。
2)凡例对用户检索起具体的指导作用,通常以简洁的文字和示例详细介绍检索工具的编排体例、著录格式、著录项目和查找方法等,使用户对该检索工具有进一步的认识,了解其各方面的特征,掌握其使用方法。
②分类表与主题表分类表与主题表是编制和使用检索工具必不可少的辅助工具。
1)分类表主要用于文献款目的编排和浏览。
分类表的详表单独出版,分类编排文献款目的检索工具往往有分类表的简表,放在每期的前面,并与目次页结合在一起。
2)主题表有两个作用:一是像分类表那样,用于文献款目的编排和浏览,但这仅指按主题编排文献款目的检索;二是用于主题标引和检索,为检索工具和用户提供允许使用的主题词及其参照系统,保证标引的一致性以及标引与检索的一致性。
③正文正文是检索工具的主体,它由大量的文献款目按一定顺序编排而成。
从正文内部讲,其主要作用有两个:一是为用户判断检中文献是否符合自己的要求的依据,以便决定取舍;二是为用户提供获取所需原始文献的线索。
④辅助索引辅助索引是从正文中抽出检索标识以及有检索意义的外部特征和内容特征,如主题词、作者、各种号码等,编制成各种索引,每个索引款目都要注明一个或多个正文地址,从而指回正文的对应位置。
辅助索引的目的就是为了给用户提供更多的检索途径,提高检索效率。
⑤资料来源目录与附录1)资料来源目录是检索工具所摘录文献出处的目录,一般是指来源期刊,也叫引用期刊目录或来源出版物目录。
2)附录主要包括专业术语缩略语表、字母音译对照表、期刊代码表等,便于用户正确识别检索工具正文中的缩略语、代码、音译名等。
需要指出的是,构成检索工具的上述五个部分是有机联系、不可分割的整体。
(2)功能检索工具的功能基本是相同的,主要有报道、存储和检索三大功能。
①报道功能:检索工具首先应具有报道功能。
检索工具以最新文献为基本报道对象,从检索工具本身讲,报道功能主要是通过正文实现。
②存储功能:检索工具问世后,经过一段时间,所报道的当时认为是最新的文献逐渐过时,相对而言,新文献逐渐变成了旧文献,原有的报道功能开始逐渐减弱,甚至消失了。
但与这一个过程几乎同时发生的是,就检索工具已经报道过的文献而言,数量越积越多,逐渐形成了一定规模。