当前位置:文档之家› 信息检索基本理论

信息检索基本理论

章节:第二章信息检索基本理论学时:2学时教学目的:1 了解信息检索工具的概念、类型。

2 了解检索语言的分类,掌握分类语言、主题检索语言的概念、特点、使用方法。

3 了解《中国图书分类法》、《汉语主题词表》的主要结构。

4 了解信息检索的原理和途径,学会信息检索的方法和检索步骤。

5 掌握信息检索效果的主要评价指标,了解提高检索效果的策略。

重点难点: 1 简述信息检索工具的类型。

2 论述分类语言、主题检索语言的原理与特点。

3 简述信息检索的主要步骤。

4 论述提高信息检索效果的方法。

教学进程: 1 信息检索工具(15分)。

2 信息检索语言(30分)。

3 信息检索的步骤(25分)。

4 检索效果的评价(25分) 5 小结(5分)。

思考题:1 简述信息检索工具的种类。

2 简述分类语言与主题语言的含义及其特点。

3 简述信息检索的步骤、方法。

4 简述查全率、查准率的概念,分析影响查全率和查准率的因素,并提出解决办法。

参考资料: 1 沈固朝.信息检索(多媒体)教程.北京:高等教育出版社 2 华薇娜.网络学术信息资源检索与利用.北京:国防工业出版社 3 刘俊熙,王立义.信息检索.北京:北京图书馆出版社备注: 1第二章信息检索基本理论 1 信息检索工具信息检索工具是指人们用来存储、报道和查找文献信息的工具或系统。

在文献检索里面就是我们前面讲到的二次文献。

按照对收录文献的提示方式划分,信息检索工具可分为目录、题录、文摘、索引。

检索工具的作用:1、存储作用检索工具将分散的不同种类、学科文献经过压缩加工系统排列组织到一起。

只有先进行了存储我们才能进行查找。

这样我们不必在查找资料时阅读大量原始文献,只需利用检索工具查找相关主题的目录介绍等来确定我们所需的资料。

在有限时间内提高了工作效率。

2、检索作用存储在检索工具中的资料,可根据我们的需要按一定的方法和规则进行查找。

既然是检索工具集必然具有检索的作用。

3、报道作用检索工具搭建了文献管理者和文献利用者之间沟通联系的桥梁。

它可以向我们使用者展示管理者所收藏的文献类型、数量等情况,提高了文献的利用率。

例:图书馆的门口专供检索的机子,他将图书馆的馆藏数据存在一套图书馆专用管理系统中,我们可以通过利用这套系统,来检索图书馆都有哪些书,书名作者是什么?放在什么地方?借出去基本几本?还有几本在库里,甚至你们读者证的一些信息,包括超期没有,罚金多少等等都可以查询。

他也是一个检索工具。

检索工具类型: 1.1 目录目录是揭示出版物外部特征的检索工具,如书名、作者、出版社等等,并不涉及书中的具体章节或期刊中的具体文章。

他以“本”为单位报道文献。

目录的种类主要有:书名目录:如《全国总书目》、《全国新书目》;著者目录:;分类目录:;主题目录:。

1.2 题录题录是以单篇文献作为报道单位,揭示文献外部特征的检索工具。

内容包括文献号、文献篇名、作者及工作单位、原文出处等,他也不涉及文献内容,没有内容摘要。

文献深度比目录大,是用来查找最新文献的重要工具。

1.3 文摘 2文摘也是以单篇文献为报道单位,是描述文献外部特征和主要内容特征的检索工具。

我们可以通过文摘内容了解文献基本内容,从而决定文献的取舍,起到筛选文献的作用。

因此其检索功能强于题录,是检索工具的主体性类型。

1.4 索引索引是将文献中某些主要的、具有检索意义的内容特征标识或外部特征标识按某种顺序排列,并注明文献条目线索的检索工具。

如主题索引、著者索引。

索引常附于检索工具的后部,是检索工具的主要组成部分,它为查找文献提供了多种检索途径。

有的本身全由索引构成,如美国《科学引文索引》(SCI),美国工程索引EI。

索引的组成主要有索引款目和参照系统两部分。

索引款目是索引的主要部分,每条索引款目通常由文献特征标识(标目)、说明语、地址三项组成。

标目:识别特定款目的主要标志,他控制款目在索引中的位置,检索者可以通过他迅速找到有关款目。

作者姓名、主题词等都可作为标目。

采用不同形式标识,就构成不同类型索引。

如关键词索引、分类号索引、作者索引。

说明语:用来限定和进一步细分同一标识下的文献,达到改善索引的功能。

文献题名、自编的短语或短句都可作为说明语。

材料出处:指明了索引中款目的文献线索,如页码、题录或文摘的顺序号等。

一般文献描述项和索引之间常用文摘号相连,文摘号是检索系统编织者给每篇文献确定的一个能代表该篇文献的号码,我们可通过所引种的文摘号的指引检索文献的描述项,从而获得文献详细信息。

5、搜索引擎他是以网页为著录单元,在Web 中自动搜索信息并将其自动所引到Web服务器。

索引信息包括文档地址,文档中单字出现的频率、位置等。

网络搜索引擎很多,著名的有Yahoo! Google百度、搜狐、网易、新浪等。

2 信息检索语言 2.1 信息检索语言的概念举例:每天经邮局寄出的信件来自四面八方,杂乱无章。

而代表地址的邮政编码和文字确使这些信件成为有序。

邮政编码使邮件分检速度加快,有序化程度提高。

他不是随意组合的,而是代表了一定的编号。

信息也是如此,全世界每年产生的信息何止千万,信息中心将这些信息搜集起来,制定出有关规则,如使用哪种信息系统,使用哪种分类法和主题词表,著录信息的标准是什么等等。

信息人员根据规定的规则将信息加工后按一定的排序送入信息系统。

用户可以按一定得条件去检索信息了。

因此说信息的有序化是由信息著录标准、信息系统的排序方法及检索语言等决定的。

3检索语言(Retrieval Language)是保证存储和检索的一致的一种共同性的人工语言,它把文献的存储与检索联系起来,使文献的标引者和检索者取得共同理解,从而实现检索。

就检索语言的实质而言,它是从自然语言中精选出来并加以规范化的一套词汇符号,是概括信息内容或外在特征及其相互关系的概念标识体系。

检索语言由词汇和语法两部分组成。

词汇是指登录在类表、词表中所有的标识(分类号、检索号、代码等),是可识别的语词;语法是指如何运用标识来准确表达信息内容和特征,以有效实现信息检索的规则。

在存贮和检索过程中,检索语言起着重要的语言保障作用。

它既是编制检索工具的依据,也是计算机信息存储及检索系统用以表达文献主题概念的人工语言。

如果没有检索语言作为标引人员与检索人员的共同语言,就很难使得标引人员对文献主题内容的表达(文献标引)与检索人员对相同内容的课题文献需求(课题标引)取得一致,文献检索也就不可能顺利实现,甚至根本无法实现。

2.2 信息检索语言的分类检索语言的种类很多。

按描述文献特征不同,检索语言分为描述文献外表特征的检索语言和描述文献内容特征的检索语言,见下图。

分类语言关键词语言描述信息内容特征的语言单元词语言主题语言标题词语言叙词语言检索语言书/刊名著者描述信息外表特征的语言出版事项代码/序号图2-2 信息检索语言题名语言:是按文献题名字顺逐字排检,西文起首冠词一律不排。

著者语言:是按著者姓名,按姓前名后的字顺逐字排检。

号码语言:是按文献代码,发专利号、标准号、报告号、ISBN号、ISSN号等的顺序排检。

2.3 分类语言 42.3.1 概述分类语言是一种直接体现学科知识分类的等级制概念标识系统,是通过对概括性文献信息内容及某些外表特征的概念进行逻辑分类和系统排列而构成的,用分类号作为检索标识,用于存储和检索文献信息的一种信息标识系统。

建立体系分类语言的基础是概念的划分。

所谓“类”是指具有某种共同属性的事物或概念的集合。

一类事物可以根据其不同的属性进行层层划分。

一个概念经过一次划分后形成的一系列概念就是种概念(下位类),而被划分的概念被称为种概念(上位类)。

同一属概念划分出来的各个种概念彼此之间相互称为并列概念(同位类)。

分类语言包括体系分类语言和综合分类语言(分面组配分类语言)。

我们只对体系分类语言进行研究。

2.3.2 《中国图书分类法》简介《中国图书分类法》简称《中图法》,是我国图书情报界为实现全国信息资料统一分类编目而编制的一部大型信息分类法。

《中图法》1973年出版第一版,1980年和1982年相继出版第二版、第三版,现行的第四版1999年正式出版。

《中图法》由分类表、编辑及使用说明和索引三部分组成。

编辑及使用说明为了解和掌握分类表提供指导。

索引则是使用分类表的辅助工具。

分类表是分类法的主体,是类分信息的主要依据。

因此,以下重点介绍分类表的结构。

(1) 基本部类。

它是分类法类目表中最先确定、最概括、最本质的类目。

《中图法》确定为五大部类:马列主义、毛泽东思想、邓小平理论,哲学,社会科学,自然科学,综合性图书。

(2) 基本大类。

它是在基本部类的基础上进一步展开而形成的。

基本大类构成分类表的第一级类目。

《中图法》的基本大类有22个。

见图2-3。

(3) 简表。

简表是整个分类法的基本类目表,一般由基本大类在作一、二度划分出来的类目和基本大类构成。

(4) 详表。

是整个分类法的正文,亦称主表,由所有不同级类目组成。

它是类分信息资料的依据。

(5) 辅助表。

也称复分表,它是用于辅助主表的不足,对主表中列举的类目进一步细分。

基本部类基本大类 5马克思主义.列宁主义、毛泽东思想、邓小平理论―――――――――――― A 马克思主义、列宁主义、毛泽东思想、邓小平理论哲学――――――――――――――- B 哲学、宗教社会科学――――――――――――― C 社会科学总论 D 政治、法律E 军事F 经济G 文化、科学、教育、体育H 语言、文字 I 文学 J 艺术 K 历史、地理自然科学―――――――――――― N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学综合性图书――――――――――― Z 综合性图书图2-3 《中国图书分类法》基本大类《中图法》的标记符号采用汉语拼音与阿拉伯数字相结合的混合制号码。

用一个字母表示一个大类,用字母的顺序反映大类的顺序,在字母后面用数字反映大类下类目的划分。

分类号码的排列严格按照小数制的排列方法。

数字的位置尽可能使号码的级数代表类目的级数,基本上遵循层累制的编制原则。

见图2-4。

G 文化、科学、教育、体育 G0 文化理论 G1 世界各国文化与文化事业 G2 信息与知识传播图书馆学、图书馆事业 G25 读者工作G252 文献检索 G252.7 科学、科学研究 G3 教育 G4 体育 G8 图2-4 《中国图书分类法》类目展开示例 62.3.3 体系分类语言的优势: (1) 族性检索效果强。

能较好地体现学科的系统性,便于人们从某一学科或专业角度查找文献。

(2) 便于随时放宽或缩小检索范围。

(3) 分类标识简单明了,易于掌握。

相关主题