第二章文献信息检索基础第一节文献信息检索的概念与过程一、文献信息检索的作用文献信息检索的作用主要体现在以下两方面。
1.充分利用文献信息资源,避免重复劳动科学研究具有继承和创造两重性,科学研究的两重性要求科研人员在探索未知或从事研究工作之前,应该尽可能地占有与之相关的文献信息,即利用文献检索的方法,充分了解国内、国外,前人和他人对拟探索或研究的问题已做过哪些工作?取得了什么成就?发展动向如何?等等。
这样才能做到心中有数,防止重复研究,将有限的时间和精力用于创造性的研究中。
因此,文献信息检索是科学研究必不可少的前期工作。
2.为人们更新知识,实现终生学习提供门径在当代社会,人们需要终生学习,不断更新知识,才能适应社会发展的需求。
美国工程教育协会曾估计,学校教育只能赋予人们所需知识的20%~25%,而75%~80%的知识是走出学校后,在研究实践和生产实践中根据需要,不断再学习而获得的。
因此,掌握文献信息检索的方法与技能,是形成合理知识和更新知识的重要手段,是做到无师自通、不断进取的主要途径。
二、文献信息检索的概念1.信息检索的概念:信息具有共享性。
信息资源共享(information resource sharing)是当今社会的一个发展趋势。
为了分享人类共同的知识财富、研究成果,人们必须通过一种科学的方法从取之不尽的信息资源中去识别和获取所需要的那部分信息,这个过程就是信息检索(information searching)。
信息检索在信息处理和增值中具有重要意义。
信息的检索、利用和创造是一个循环和增值的过程,人们通过检索获得信息,经过处理筛选出自己需要的部分,在利用信息的过程中又创出新的信息,这些信息经过核准后又被标引、组织进检索工具,再提供人们使用,信息在这个循环的处理过程中不断得到扩充,它的增长是没有穷尽的。
如下图所示:保留/信息检索的概念有狭义和广义之分。
从广义上讲,信息检索应该包括信息的存贮与检索两方面的含义。
信息的存贮(information storing): 将信息按一定的方式组织起来,是指信息的有序化、系统化。
信息的检索 (information retrieval): 根据用户的需要,从系统化的有序信息集合中准确查找出特定相关信息的过程。
即信息的“查询”。
信息的存贮方式与检索方式是对应的。
对于信息检索而言,当前更普遍使用的术语是信息存取。
信息存取 (information access): "Assess" 该词源于计算机学科领域,指计算机访问文档或数据集的方式。
信息存取是将所有信息的存贮、检索活动与先进的计算机技术融合在一起,并将其引入信息检索的范畴。
它从本质上拓宽了信息检索的内涵与应用。
如果检索的对象是文献,那么就属于文献检索。
从狭义上讲,信息检索指的主要就是信息的“查询”。
2.信息检索的类型:(1)根据检索对象的不同,信息检索可以分为数据检索、事实检索、文献信息检索、文献全文检索、。
①数据检索数据检索以具有数量性质,并以数值形式表示的数据为检索对象。
这些数据都是经过有关学科领域的专家学者仔细挑选、反复验证、认为准确可靠,并且可以被人们直接使用。
因此这些数据也可以看作是浓缩型的信息。
因此,数据信息检索是一种确定性检索。
例如,查找各种物质的物理化学常数、各种统计数据和工程数据等属于数据检索的范畴。
②事实检索事实检索以事实为检索对象。
所谓“事实”又包括各种事件、事情发生的时间、地点、起因、经过、结局和预后,也包括对事物或事项本原的检索。
检索的结果是有关某一检索课题的具体答案,因此,事实检索也是一种确定性检索。
但事实信息检索过程中所得到的事实、概念、思想、知识等非数值性信息和一些数值性信息须进行分析、推理,才能得到最终的答案,因此要求检索系统必须具有一定的逻辑推理能力和自然语言理解功能。
目前,较为复杂的事实检索课题仍需人工才能完成。
例如,“有哪些海外华人得过诺贝尔奖?”“中国发明专利历年的申请案中,国外来华申请历年所占的百分比是多少?”这些事实信息,就需要对历年的数据进行统计,然后进行比较分析,才能得出具体答案。
③文献信息检索(简称“文献检索”)文献信息检索:以文献的题名、作者、摘要、来源出处、专利号、标准号、收藏处所等文献信息为检索对象,简称“文献检索”。
检索的结果是与检索课题相关的一系列文献信息(相关文献线索),检索结果不直接解答课题用户提出的技术问题,只提供与之相关的文献线索供参考,用户通过阅读后才决定取舍,因此,书目信息检索是一种相关性检索。
例如,调查“甲壳素水解制壳聚糖”的国内外专利技术有哪些,就属文献检索的范畴。
文献检索又有广义和狭义之分。
从广义上讲,文献检索也包括文献的存贮与检索两方面的含义。
文献的存贮(document storing): 是指将分散的、无组织的一次文献按一定的方式组织起来,使之有序化、系统化,并形成文献检索工具的过程。
文献的检索 (document retrieval): 则是根据用户的需要,从文献检索工具(系统化的有序文献信息集合)中准确查找出相关文献信息的过程。
即文献的“查询”。
从狭义上讲,文献检索指的就是文献的“查询”。
即:指根据一定的需要和目的,利用有关的检索工具,按照一定的方法、途径和步骤,查找出用户在特定时间和条件下所需文献信息的过程。
④文献全文检索(简称“全文检索”)全文检索以科研论文或专利说明书等文献的全文为检索对象,简称“全文检索”。
检索的结果是与课题相关的原始文献的全部文本,检索结果也不能直接解答用户提出的技术问题,因此,全文信息检索也是一种相关性检索,它是在文献信息检索基础上进行的更深层次的内容检索。
通过对全文的阅读,可进行技术内容及研究方向的对比分析,掌握与研究课题的相关程度,为研究的创新点提供参考与借鉴。
综上所述,数据检索是从存贮有大量数据、图表的检索系统中获取数值性数据,检索工具为各种手册、年鉴、图谱、表谱等参考工具书以及数值型数据库检索系统;事实检索是从存贮有大量知识信息、事实信息的检索系统中获取某一事实的具体答案,检索工具为各种字典、辞典、百科全书、年鉴和名录等参考工具书以及事实型数据库检索系统;文献检索是从存贮有题名项、作者项、出版项或文摘项的检索系统中获取有关的文献线索,检索工具为各种书目、文摘和索引等检索期刊或相应的文献信息数据库检索系统;全文检索是从存贮整份文献(整篇论文、专利说明书乃至整本著作)的全文检索系统中获取原始文献的全文,检索工具为各种全文数据库、电子图书馆或者专利说明书全文数据库系统。
(2)根据信息组织方式的不同,信息检索可以分为文本检索、超文本检索、超媒体检索。
①文本检索(Full Text Retrieval):是针对存贮于数据库中的整本图书、整篇文章中的任意内容进行的检索。
文本检索可以根据读者的需要获取文本数据库中的有关章、节、段、句、词等任何信息进行。
检索结果即可以是文本自身,也是可以对文本进行各种统计分析的结果。
例如,“《红楼梦》一书中‘贾宝玉’一共出现过多少次?”等问题就可以通过文本检索加以回答。
②超文本检索(Hyper Text Retrieval):是指对计算机网络节点中所存贮的文本信息以及超连接文本信息进行的检索。
它强调网络中心与网络节点之间的语义联接结构,依靠系统提供的复杂工具进行图示穿行和节点展示,提供浏览时查询以及跨库检索。
③超媒体检索(Hyper Media Retrieval):是指对存贮于计算机和计算机网络中的文本、图像、声音等多种媒体信息的检索。
它具有多维存贮结构,采用方向性链接。
与超文本检索一样,它也可以提供浏览时查询以及跨库检索。
(3)根据检索技术手段的不同,信息检索可以分为:手工检索(手检)和计算机检索(机检)①手工检索(manual retrieval):多使用印刷型或书本型检索(paper-based retrieval)工具,早期有检索卡片,现在使用最多的是检索期刊,它们定期地将最新收集到的信息加以汇总、组织和报道。
手工检索的技术要求不高,以人的劳动为本,由人来翻阅,由人来进行比较、选择,完成匹配。
手工检索工具能提供的检索途径十分有限,检索结果往往不尽人意。
②计算机检索(computer-based retrieval):技术含量高,它是通过计算机对数据库系统的操作来实现的。
计算机检索不仅需要先进的技术设施,也要求较高的人的文化素质。
检索系统包括:计算机主机设备、外部存贮器、输入输出设备、终端设备、通信设备等硬件设施,还需要控制、检索软件系统,包括:通信软件、操作系统、应用程序等,以实现对数据库的信息存取。
检索过程是在人与机器的合作、协同下完成的,它们经常用实时的(real time )、交互的(interactive )的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息。
计算、比较、选择的匹配任务是由机器来执行的,而人则是整个检索方案的设计者和操纵者。
这里,检索的本质没有变,变化的是信息的媒体形式、表示方式、存贮结构、存取方式。
计算机检索又可以细分为光盘检索、联机检索和网络检索。
③ 计算机检索的优势计算机检索明显优于手工检索,主要表现为检索的信息量大、数据更新快、检索功能强、检索结果输出的多样性等。
检索的信息量大:且不说大型机器的海量存贮,一张普通光盘的信息存贮量就达650M ,相当于几十万页的印刷性图书。
计算机若与全球网络相连,就能获得世界范围的信息。
数据更新快:计算机处理与电子传输的速度快、数据的动态、及时更新、检索的实时性都是手检工具无法比拟的。
检索功能强:机检系统可提供很多检索途径,对一个检索途径还可以同时取若干个检索属性值,从多点交叉切入,有多重限定,有多种组合方式,允许人机交互,能达到高效、高精度的检索效果。
并具有多库检索,多媒体和多种知识检索功能。
检索结果输出的多样性:用户可以选择各种输出形式和输出格式,比如屏幕显示、拷贝、下载、打印等都是常用的方式,输出的内容、格式和形式可选择或自行定义。
总的趋势是机检方将逐步取代手检方式。
当前许多经典的印刷型工具都有与其相对应的电子数据格式、数据库,印刷工具则成了电子数据加工输出的“副产品”,许多新生的数据库不再与印刷型工具有缘,仅有其电子版本。
三、文献检索的过程文献检索的基本过程是:通过对大量的、分散无序的原始文献信息进行搜集、加工、整序,建立各种各样的检索系统,并根据用户的需要,从中查找出用户所需特定的文献信息(文献线索)。
文献检索的关键在于通过一定的方法和手段使文献的存贮与检索这两个过程所采用的特征标识(检索标识)保持一致,以便有效地获得和利用文献资源。
其中存贮是为了检索,而检索是存贮的根本目的所在。
文献存贮和检索的全过程如下图所示:原始文献加工文摘款目整序检索语言检索课题分析检索表达式检索系统规范化检索结果→↑→→→加工↑输入检索标识智能匹配→→文献信息的存储过程→文献信息的检索过程存贮的过程,主要对信息源进行搜集、加工和整序。