信息检索复习要点第一章一、情报和文献1.情报(P4 1.2.3)情报就是为了解决一个特定问题从一定文献资料中提取或经过传递获得的知识。
知识性、传递性、针对性是情报的3个基本属性。
2.文献(P5 1.2.5)记录有知识的一切载体叫文献。
知识内容、信息符号、载体材料、记录方式是文献的4个基本要素。
二、文献按载体划分(P5~6 1.3.1)1.印刷型2.微缩型3.视听型4.电子型三、文献级次划分(P6 1.3.2)1.零次文献:非正式出版物或非正式渠道交流的最原始的文献。
如手稿、演讲、听取经验交流,甚至包括口头言论。
2.一次文献:依据作者本人的研究或成果制作成果创作的文献,即通常所说的“原始文献”、“第一手资料”。
如图书、期刊论文、科技报告、学位论文、专利说明书等。
(原创性)3.二次文献:按一定的方法对一次文献进行加工,使之有序化而形成文献。
如目录、索引、文摘等。
(有序性)4.三次文献:一般是围绕某个专题或出于特定目的,根据二次文献提供的线索,选用大量一次文献的内容,经过筛选、分析、综合和浓缩等深度加工而形成的文献。
如各种评述、进展报告、教科书、词典、年检、百科全书等。
(综合性)四、ISBN和ISSN(P7~9 1.3.3)1.ISBN(国际标准书号)(1)它是由国际标准化组织1972年公布的一项国际通用的出版物统一编码。
它是由10位数字组成,共分4段【组号、出版社号、书序号、校验码(1位数,ISBN最后一位数值)】。
(2)校验方式:将ISBN 1~9位数字顺序乘以10、9、8、7、6、5、4、3、2这9个数字,将这些乘机之和再加上校验码,如果能被11整除,则这个ISBN号是正确的。
2.ISSN(国际标准连续出版物编号)(1)实现对全世界文献的管理。
由8位数字组成分2段,每段4位数字。
中间用“-”隔开前7位是刊名代号,最后一位是计算机检验位。
(2)检验方式:将ISSN 1~7位数字顺序乘以8、7、6、5、4、3、2这7个数字,将这些乘机之和再加上检验号,假如能被11整除,则这个ISSN号是正确的。
第二章一、信息检索(P12)从广义的角度讲,文献检索是指把文献按一定方式组织和存储起来,并针对用户的需求找出所需的文献过程,亦叫信息检索。
而人们一般所指的文献检索,是指狭义的文献检索,即最后一个过程——信息检索,文献的查找过程。
二、信息检索的类型(P13 2.1.2)1.按照检索的对象的不同,人们将信息检索分为文献检索、数据检索和事实检索。
2.按照检索的方式的不同,人们还常将它分为手工检索和计算机检索。
三、图书的四大常用检索点(P20 2.3.1)1.书名2.作者3.主题词4.分类号四、检索语言的基本种类(P19 2.3)检索语言是文献检索中用了描述文献特征和表达信息提问内容的一种专门化的人工语言,是信息组织和文献检索共同使用的语言。
检索语言大致分为分类语言(P19)和主题语言(P24)两种。
(1)最早的图书分类法(P20 2.3.1 2)我国西汉刘向、刘歆父子所著的《七略》。
它首创的“七分法”对后世我国的分类思想的形成和发展影响极大。
(2)四库全书(P21 小资料)纂修与清乾隆年间的《四库全书》,从收集编纂到成本,共用10年(1173-1782),集我国古代文献典籍之大成。
共著录图书3461种,79309卷,36000余册。
《四库》将各种书籍分为经部、史部、子部、集部。
各部下分若干类,类下细分为属。
(3)全球使用最广的分类法(P21 2.3.1 3)《杜威十进分类法》(DDC)是当今世界上影响最大、用户最多的图书馆分类法。
(4)、中图法(P23 2.3.1 4)《中国图书馆图书分类法》是我国建国后编制出版的一部具有代表性的大型综合性分类法,简称《中图法》。
它首先将知识门类分作哲学、社会科学、自然科学三大部类,同时根据马克思列宁主义、毛泽东思想的指导作用和文献分类本身的需要,增设马列主义、毛泽东思想和综合性图书两大部类,构成5大部类。
根据文献分类的需要,类表将马列主义、毛泽东思想,哲学和综合性图书3个基本部类直接设置为基本大类,同时将社会科学部类扩充为9个基本大类,自然科学部类扩充为10大类,这就构成了22个基本大类。
(分类表如下)《中图法》基本大类展开示意表马克思主义、列宁主义、毛泽东思想············A 马克思主义、列宁主义、毛泽东思想、邓小平理论哲学········································B 哲学社会科学····································C 社会科学总论D 政治、法律E 军事F 经济G 文化、科学、教育、体育H 语言、文字I 文学J 艺术K 历史、地理自然科学····································N 自然科学总论O 数理科学和化学P 天文学、地球科学Q 生物科学R 医药、卫生S 农业科学T 工业技术U 交通运输V 航天、航空X 环境科学、劳动保护科学综合性图书··································Z 综合性图书五、文献检索的方法(P27 2.4)1.常用法(也称工具法)(1)顺查法(2)倒查法(3)抽查法2.追溯法3.循环法(也称综合法)六、文献检索的程序(P30 2.4.3)(可能论述:从检索程序入手,就一个检索课题如何利用纸本文献、数据库、网络资源全面搜集资料)1.分析待查项目,明确主题概念2.选择检索工具3.确定检索途径和检索标识4.查找文献线索,索取原文七、查全率和查准率(P31 2.4.4)1.查全率亦称检全率、命中率、召回率等,指系统实验检索时检出的与某一检索提问相关的信息资源数与检索系统中与该提问相关的实有信息资源的总数之比。
查全率=检验出的相关信息资源量/系统相关信息资源总量* 100%查全率反映的是检索系统检出的相关信息资源的能力2.查准率亦称检准率、相关率、检索精度,指系统实施检索时检出的与某一检索提问相关的信息资源数与检出的信息资源总是之比。
查准率=检验出的相关信息资源量/检出的信息总量* 100%查准率反映的是检索系统排除与检索提问无关信息资源的能力第三章一、计算机检索的四个阶段(P34 3.1.2)1.脱机检索时代2.联机检索时代3.光盘检索时代4.网络检索时代二、学会提炼检索词三、布尔检索及逻辑组配(P39 3.2.1)规定检索词之间的逻辑关系的运算符,称为布尔逻辑运算符。
布尔逻辑运算符包括逻辑“或(OR)”、“与(AND)”和“非(NOT)”。
1.或(OR)运算符,也可用“+”代替,表示并列。
其含义是,检索的记录至少有两个检索词中的一个。
2.与(AND)运算符,也可用“*”代替,表示相交关系或限定关系。
其含义是,检出的记录中,必须同时含有所有的检索词。
3.非(NOT)运算符,也可用“-”代替,表示排除不需要的检索词。
用于缩小检索范围。
四、检索策略(P50 3.3)广义上的检索策略是为实现检索目标而制定的全盘计划或方案,指导整个检索过程狭义上的检索策略师指检索式。
它是用来表达用户提问的逻辑表达式,是对多个检索词之间的相互关系和检索顺序作出某种安排,是整个检索策略的综合体现。
1.扩检(P55 3.3.5)一般将设置的检索范围太小,命中文献不多,需要扩大检索范围的方法称之为扩检。
2.缩检(P55 3.3.5)一般将设置的检索范围太大,命中文献太多,需要缩小检索范围的方法称之为缩检第四章一、IP、DN、URL(P63 4.1.2 5)1.IP(Internet Protocol 互联网协议地址)为了使加入互联网的计算机在通信时能够相互识别,网际互联IP协议规定每台正式入网的计算机都要有一个唯一的网络IP地址。
一个IP地址由4个字节共32位的数字串组成,这4个数字串用小数点分隔。
每个字节的取值范围0~255,可用十进制或十六进制表示。
IP地址是互联网信息定位所必须的,每台上网的计算机都有一个唯一的IP地址,它的作用类似于上网计算机在信息高速公路上的门牌号码。
【如120.94.184.118(重师大学城雅风苑A栋某寝室端口IP)】2.DN(Domain Name 域名)由于IP地址是数字形式,不便记忆,互联网就采用了域名系统(DNS),依据通信地址给每台主机起一个名字,这个名字就被称为域名(DN)。
域名一般由2~5段字符组成,采用层次结构,每一层构成一个子域名(Sub-domain),各子域名之间以圆点分隔最右边的子域名是顶级域名(Top-level domain)。
【如重庆师范大学的域名表示这台主机是在中国(cn)这个顶级域名下,属于教育机构(edu)这个子域名,cqnu表示这个这是重庆师范大学内的一台主机,www 是它的主机名(说明他是一台Web服务器)】3.URL(Uniform Resources Locator 统一资源定位器)为了使连入互联网的计算机查询信息时,特别是通过Web浏览器查询信息时,有一个标准的资源地址访问方法,人们开发了一种标识方法,成为统一资源定位器(URL)。