第1章信息检索概论1.信息的定义:从认识论出发,我国大多数学者认为:信息具有物质属性,是物质的一种存在形式,它以物质的属性或运动状态为内容,并且总是借助于一定的物质载体传输或存储。
2.信息的特征:(1)传递性(2)时效性(3)共享性(4)客观性其他的特性还有开发性、存储性、价值的不定性、变换性、可伪性等。
3. 信息检索(Information Retrieval)定义:广义概念——是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,故全称:“信息存储与检索(Information Storage and Retrieval ) 。
狭义概念——仅指上述过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(Information Search)。
4.信息检索的基本步骤课题分析,明确检索范围选择检索系统和检索工具确定检索点和检索途径构造检索式选定检索方法索取原始文献5.计算机检索的发展历程计算机检索是在计算机技术和通信技术发展的基础上建立起来的。
它产生于20世纪50年代,发展于80年代中期,90年代后随着国际互联网技术的发展而进入了一个崭新的时期。
发展历程大致可以概括为:手工信息检索阶段(1954之前)脱机信息检索阶段(1954/1964)联机信息检索阶段(1965/1971)光盘信息检索阶段(1972/1994)网络信息检索阶段(1995年至今)6.知识的定义人们通过实践对客观事物及其运动过程和规律的认识。
在这里,知识作广义的理解,包括消息、情况、事实、数据。
知识可分为理性知识和感性知识。
理性知识,是对客观事物的本质和规律性的认识,是经过思维、逻辑加工的知识,构成知识体系;感性知识,是对客观事物的描述和对现象、事实的感知,是未经逻辑加工的知识。
知识的分类知识按不同标准可作如下分类:依照反映对象的深刻性和系统性程度,知识分为生活常识和科学知识;按知识的成熟程度,分为经验知识、理论知识。
按领域:哲学知识、社会科学知识和自然科学知识;按用途:科学知识、技术知识、文化知识;按水平:低级知识、中级知识和高级知识;按性质,普通知识、专业知识;按载体:隐性知识、显性知识。
7.文献的定义和分类文献是记录有知识和信息的一切载体,是固化在载体(纸张、光盘)上的知识。
文献是物化的精神产品,或者说,文献是知识信息的物化形态。
其中,信息内容是文献的知识内核,载体材料是文献的存在形式和外壳,而符号系统和记录方式则是二者联系的桥梁和纽带。
这4个要素相互联系就构成了文献的四维框架结构。
文献的分类根据其内容性质和加工程度的不同,文献可分为以下四个级别:(1)零次文献:未经出版发行的文献,包括手稿、个人通信、原始记录等。
(2)一次文献:首次出版的各种文献,也称原始文献。
如期刊论文、科技报告、会议论文、专利说明书等。
一次文献是以科研生产活动的第一手成果为依据而创作的文献,内容丰富,参考价值大,是我们利用的主要对象。
(3)二次文献:报道和查找一次文献的检索书刊,如各种目录、题录和文摘等。
二次文献是图书情报工作者在大量收集原始文献的基础上,经过分析、归纳、重组后出版的。
二次文献是一次文献的集约化、有序化的再次出版,是贮藏、利用一次文献的主要的、科学的途径。
(4)三次文献:利用二次文献提供的线索,选用大量一次文献的内容,经综合、分析和评述再度出版的文献,如各种述评、进展报告、动态综述、手册、年鉴和百科全书等。
我们使用的各种教科书也属三次文献。
文献按存储载体可分为:(1)印刷型:通过铅印、油印和胶印等手段,将知识固化在纸张上的一类文献。
例如,图书、期刊以及各种印刷资料。
它的主要优点是便于阅读和流传,缺点是体积大,信息密度低。
(2)缩微型:以印刷型文献为母本,采用光学摄影技术,把文献的影像固化在感光材料上的一类文献。
常见的缩微型文献有缩微平片和缩微胶卷两种。
这种文献的优点是体积小,信息密度高,缺点是阅读必须借助阅读机或利用缩微复印机。
(3)声像型:一种非文字形式的文献。
常见的有各种视听资料,如唱片、录音带、电影胶片、激光声视盘(CD-ROM)、幻灯片等。
这类文献记录声音和图像,通过唱机、录音机、录像机、放影机和投影机等予以重现,可以使人闻其声、观其形。
(4)机读型:由于计算机广泛应用而产生的一种新文献。
常见是各种已录有内容的磁带、磁盘和光盘。
这种文献的存贮、阅读和查找利用都须通过计算机才能进行,所以既有信息量大、查找迅速的优点,又有设备昂贵、使用费用高的缺点。
按出版方式,文献可分为:图书Book期刊Periodical报纸Newspaper专利文献Patent Literature会议文献Conference Literature科技报告Scientific & Technical Report学位论文Dissertation for Academic Degree政府出版物Government Publication产品样品资料Product Sample BookArchivesRecords、Music Score、Map等都是文献家族中的重要成员。
在科技查新工作中利用较多的是美国国家技术信息服务局NTIS(The National Technical Information Service of the U.S Deportment of Commerce)出版的《美国政府研究报告通报与索引》,有数据库和检索刊物以及缩微平片等多种形式可利用。
检索国内学位论文可以利用《中国学位论文数据库》,检索国外学位论文可利用Dialog国际联机系统或国际大学缩微胶卷公司(University Microfilms International)编辑出版的《国际学位论文文摘》、《美国博士学位论文》以及《学位论文综合索引》等检索工具。
8.信息、文献、知识三者的关系:三者之间的联系:(1)信息概念不仅包括人与人之间的消息的交换,而且还包括人机之间、机器与机器之间的消息交换,以及动、植物界信号的交换。
(2)知识是人类通过加工吸收信息,对自然界、人类社会以及思维方式与运动规律的认识与掌握,是人的大脑通过思维重新组合的系统化信息的集合。
(3) 文献是记录有知识和信息的一切载体三者之间转换:(1)物质运动发出信息;(2)信息经人脑加工变成知识;(3)知识被记录形成文献、被传递成为情报;9.检索工具和检索语言1. 检索工具概念及作用检索工具泛指查找信息所使用的一切工具和设备,包括检索工具书、穿孔卡片、电子计算机等。
是附有检索标识的某一范围文献条目的集合,是二次文献。
检索工具的作用:1)报道作用2)存储作用3)检索作用。
2 .检索工具基本类型按照信息加工的手段或设备划分:(1)手工检索工具;(2)机械检索工具;(3)计算机检索工具。
按照信息载体形态划分:(1)书本式检索工具,包括期刊式、单卷式和附录式;(2)卡片式检索工具;(3)缩微式检索工具;(4)磁性材料式检索工具。
按收录范围划分:(1)综合性检索工具;(2)专科性检索工具;(3)专题性检索工具;(4)全面性检索工具;(5)单一性检索工具。
按时间范围划分:(1)预告性检索工具;(2)现期通报性检索工具;(3)回溯性检索工具。
按编制方法划分:目录、文摘和索引等。
3. 检索语言定义检索语言是保证和检索一致的一种共同性的人工语言,它把文献的存储与检索联系起来,使文献的标引者和检索者取得共同理解,从而实现检索。
检索语言是应文献信息的加工、存贮和检索的共同需要而编制的专门语言,它是表达概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。
检索语言的类型(1)分类语言分类语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。
目前,我国社会科学文献的分类与检索,主要根据三种分类语言,即《中国图书馆图书分类法》(简称《中图法》)、《中国人民大学图书馆图书分类法》(简称《人大法》)和《科学院图书馆图书分类法》(简称《科图法》)(2)主题语言主题语言是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。
以主题语言来描述和表达信息内容的信息处理方法称为主题法。
主题语言又可分为:标题词、元词、叙词、关键词。
标题词语言。
是从文献的题目和内容中抽出来,经过规范化处理的主题语言。
从标题词作为文献信息内容的标引标识和检索标识。
标题词一般分为主标题和副标题,词表中按级一一列举各级标题,把主标题和副标题加以组配,作为标引和检索使用中的依据;叙词语言。
是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主语语言。
以规范化的标引词形成词表,各词独立,标引时根据需要进行组配,可表达文献内容方面的复杂概念,属后组配式,适用于机检和手检;关键词语言。
直接从文献信息的标题、摘要或内容本身抽取出来的用于揭示信息主题内容的自由词。
是一种无词表的自然语言。
关键词选自文献的题目和内容,属于非规范的后组配式;单元词语言。
以文献中的单元词表达文献信息的内容性质,一般无词表。
单元词是文献内容中最基本的不能再加复分的知识单元,单元词之间可以进行组配,属后组配式;引文语言。
利用文献的引文关系而建立的一种自然语言,无词表,标引词为文献中的主要著录项目,属后组配式。
(3)代码语言代码语言是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供检索的检索语言。
例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。
第二章信息获取技术1.条形码技术把计算机所需的数据用一种条形码来表示,然后将条形码数据转换成计算机可以自动阅读的数据。
条码是由一组粗细不同、黑白或彩色相间的条、空符号组成的编码符号,用以表示一定的字符、数字及符号信息.条码技术与其它输入技术(如键盘输入、OCR输入、磁卡输入)相比,具有识别速度快、误码率低、设备便宜、应用成本低廉和技术成熟等优点,目前已被广泛应用于商业、工业、图书、医疗等领域。
条形码编码规则唯一性:同种规格同种产品对应同一个产品代码,同种产品不同规格应对应不同的产品代码。
根据产品的不同性质,如:重量、包装、规格、气味、颜色、形状等等,赋予不同的商品代码。
永久性:产品代码一经分配,就不再更改,并且是终身的。
当此种产品不再生产时,其对应的产品代码只能搁置起来,不得重复起用再分配给其它的商品。
无含义:为了保证代码有足够的容量以适应产品频繁的更新换代的需要,最好采用无含义的顺序码。