文献检索原理与计算机检索
②著者姓名:以文献上署名的著者、译 者、编者的姓名或团体、机构名称为检索标 识的检索语言。 以著者姓名或团体、机构名称字顺为检 索标识编制的检索工具:著者索引和计算机 数据库中的著者地址(著者所在单位名称 ) 等。提供从文献署名的著者途径查找所需文 献,是文献检索中的常用检索途径之一。
由于各国姓名的表示方法不一样,因此, 使用著者途径时应遵循著者索引的编制规则。
③文献序号:以文献特有的序号(如专 利号、标准号、科技报告号、国际标准书号、 刊号“ISBN”、“ISSN”等)为检索标识的检 索语言。 利用文献特有的序号为检索标识编制的 检索工具:专利号索引、标准号索引、科技 报告号索引、国际标准书号、刊号索引等。
通过已知文献序号的途径检索,具有明 确、简短和惟一的特点,是一种很实用的检 索途径。
二、计算机信息检索系统的构成 计算机信息检索系统通常由计算机 硬件、检索软件、数据库和通信网络等 软硬件设备构成。其中数据库是计算机 信息检索系统的核心。数据库的质量直 接影响计算机信息检索系统的功能和效 率。对数据库的了解是掌握计算机信息 检索技术的前提。
三、数据库的概念与结构
数据库是指在计算机存贮设备 上按一定方式存贮的相互关联的文献 信息集合,它可以由一个或多个文档 组成。 文献信息数据库由文档、记录、 字段三个层次构成。
一、文献检索的概念 1、定义:将文献按照一定方式组织和 存储起来,并根据信息用户的需要 查找出所需文献的过程。 文献存储
广义定义
文献检索
狭义定义
文献检索原理图
文 检 索 系 统 献 存 储 文 献 检 索 分析 待查课题 提问概念 分析 原始文献 主要概念 检 索 语 言 分 主 类 词 表 转换存入 检 索 工 具
(2)按检索手段划分 手工检索:主要利用印刷型目录、索引、 文摘和参考工具书等手工检索工具检索文献 信息。 计算机检索:主要利用计算机检索系统、 光盘检索系统、网络检索系统检索文献信息。 两者的区别:采用的文献信息存储载体 不同和检索设备不同。它们形式不同,实质 相同;方法不同,原理相同。计算机检索以 其数据更新快、检索速度快和智能化多途径 检索等诸多优势,已成为现阶段文献检索的 主要方式,要完全取代手工检索还有待时日。
《中国图书馆分类法》(简称《中图法》)
基本大类
A 马克思主义、列宁主义、毛泽东思想 B 哲学 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化 、科学、教育、体育 H 语言、文字 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学 Z 综合性图书
类目体系
R51 传染病 R52 结核病 R53 寄生虫病 R54 心脏、血管 (循环系)疾病 R55 血液及淋巴 系疾病 R56 呼吸系及 胸部疾病 R57 消化系及腹 部疾病 R58 内分泌腺 疾病及代谢病 R59 全身性疾病 R599 地方病学
R 医药、卫生
分类语言的优点: ⑴ 能较好地体现学科的系统性,揭示知识之间 的隶属、派生和平行的关系,便于从学科专业的角 度查找获取文献信息。 ⑵ 按学科、专业揭示信息,性质相近的事物在 分类体系中是彼此相邻的,检索者可以随时扩大或 缩小检索范围,具有族性检索的功能。 ⑶ 通过分类号码来表达学科概念,简单明了, 不受语言文字限制,各种不同文字的检索工具可以 相互沟通,或统一编排。对于外文检索系统,即使 不懂其文字,也可借助分类号进行检索;
三、文献检索步骤
利用检索工具进行文献检索,可分以下 五个步骤: 分析研究课题 明确检索目的 选择检索工具 确定检索方法 选择检索途径 确定检索标识 实施检索 获得相关文献线索 索取原始文献
第五讲:计算机信息检索基础
一、概念
计算机信息检索,即利用计算机存贮和检索 信息的过程。 信息存贮是将文献、数值、事实等按一定的 格式输入到计算机中,加工处理成可供检索的数 据库。 信息检索是将检索提问式按一定的要求输入 计算机中,经计算机系统与已存贮在计算机中的 数据库进行匹配运算,然后将符合检索提问的数 据按要求的格式输出。
题 转换检索 输出结果
2、文献检索的类型
(1)按检索内容划分 书目检索:是以文献线索为检索对象的 检索。如,关于某个课题的文献有哪些?检 索结果是与某课题相关文献的基本情况、出 处及收藏地点 等。 数据检索:是以文献中的数据为检索对 象的检索。如,检索某个计算公式、某个化 学分子式或临床检验正常值等。 事实检索:是以文献中的事实为检索对 象的检索。如,检索某一事件的发生时间、 地点或过程等。
(2)描述文献内容特征的 检索语言 ①分类语言,又称分类法。 它是一种直接体现知识分类的等级概 念标识系统,它以科学分类为依据,结合 文献的特点,运用概念划分的原则,按照 知识门类的逻辑次序由总到分,由一般到 具体,由简单到复杂进行层层划分,逐级 展开,形成一个严密有序的,直线型知识 门类等级体系。
文献信息资源是知识的宝库 文献检索是开启知识宝库的钥匙
美国《化学文摘》封面上醒目的印着:
Key To The World’s Chemical Literature 自称是“打开世界化学文献的钥匙” 形象地说明文献检索的“钥匙”作用
医学文献检索与利用
郑州大学图书馆 王槐深
第四讲: 文献检索基本原理
文献题名——题名索引——题名途径 著者姓名——著者索引——著者途径 文献序号——序号索引——序号途径 引用文献——引文索引——引文途径
分类语言——分类索引——分类途径 主题词—主题词索引 主 题 主题语言 途 关键词—关键词索引 径 代码语言— 分子式索引等 — 代码途径
(1)描述文献外表特征的检索语言 ①文献题名:以文献题名包括:书名、 刊名、篇名等为检索标识的检索语言。 以文献题名的字顺为检索标识编制的 检索工具包括:书名目录(索引)、刊名 目录(索引)、篇名索引等。提供从文献 题名检索所需文献的途径,常用于计算机 数据库检索。
局限性:
以事物主题概念为中心组织文献,适宜检索与事物有关的 各方面的文献信息,不适宜与学科有关的族性检索。
◆主题词表(或称叙词表)
是对生物医学文献进行主题分析、标引和检索时选择用 词的依据。其作用是保证作者、标引者和检索者之间在用词 上的一致,即作者语言、标引语言、检索提问语言的一致性。 目前常用的医学专业主题词表有:
④引用文献:以文献所附注的参考文 献(reference)为检索标识的检索系统。 利用文献发表后的引用与被引用关系 建立起来的检索系统称为:引文索引。它 从文献之间相互引证关系的角度,提供新 的检索途径,不但揭示了某作者于何时和 刊物上发表了哪些论文,而且还表明这些 论文曾被哪些人引用,及对其有哪些发展、 改进、引用或否定。这也是引文索引被世 界所公认的原因。
分类语言的局限性:
⑴ 按分类的原则,一篇文献只能分入其论述的主要学科 概念的类目下,即只能给一个分类号,放在一个类目下。而一 篇文献常常涉及多个学科或一个学科的多个方面,因此不能集 中与事物有关的各方面的文献信息,不能满足人们检索综合课 题的需求; ⑵ 由于分类体系相对稳定,某些论述新概念、新事物的 文献不能及时用新的类目予以反映,容易漏检。由于分类体系 是单线排列,某些边缘学科、交叉学科、相关学科难以反映; ⑶ 由于人们认识上的差异和文化素养不同,对某些文献 的分类认识不一致,往往造成检索的失误;
制的《中国中医药学主题词表》。
●关键词语言
关键词是直接从文献题目、正文或文摘中抽出的,对揭示和 描述文献主题内容具有实质意义的关键性语词,是未经过规范化 处理的自然语言。 优点: ⑴ 来自于文献题目、正文、文摘,专指度高,检准度也高。
⑵ 适宜于计算机编制索引和检索,速度快、时滞短。
⑶ 无需编制和查找词表,使用方便,检索速度快。 ⑷ 可直接选用专业名词术语检索,方便而易掌握。
I 文学 J 艺术
K 历史
《中图法》R 医药、卫生
R1 R2 R3 R4 R5 R6 R71 R72 R73 R74 R75 R76 R77 R78 R79 R8 R9 预防医学、卫生学 中国医学 基础医学 临床医学 内科学 外科学 妇产科学 儿科学 肿瘤学 神经病学与精神病学 皮肤病学与性病学 耳鼻咽喉科学 眼科学 口腔科学 外国民族医学 特种医学 药 学
●主题词语言,又称叙词语言
是以概念为基础,经过严格优选和规范化处理,用以表达 文献主题概念和检索需求的词或词组。
特点:
⑴ 采用自然语言做标识,表达概念直观明了。 ⑵ 经过严格的规范处理,保证语词与概念的一一对应。
⑶ 可用概念组配来组织和检索文献。
⑷ 随着学科发展,可根据作者用词的变化而定期更新。 ⑸ 受主题词表(或称叙词表)控制。
⑴ 国外:美国国立医学图书馆编制的《医学主题词表》 (Medical subject Headings,简称MeSH),收录由著名的 医学专家、医学编辑、医学图书馆专家推荐的、在生物医学 领域使用频繁而又被认可的主题词1.8万个,副主题词82个。 ⑵ 国内:中国医科院医学信息研究所依据美国国立医学 图书馆《医学主题词表》翻译的《医学主题词注释字顺表》 (MeSHAAL)(电子版);中国中医研究院医学信息研究所编
⑷ 有些课题的文献往往分入非常细小的类目,按照从一
般到具体、从简单到复杂地层层检索,比较麻烦。
②主题语言,又称主题法。
它是选取自然语言中具有实质意义、 能表达文献主题概念的科技名词术语,直 接用这些词语作为标引和检索文献标识的 一种检索语言。 按照选词的原则和方法,目前应用较 多的主要有主题词语言(又称叙词语言) 和关键词语言。
1、文档(File)
文档由若干记录构成。是指数据库中的顺排文档和倒 排文档。 ⑴ 顺排文档是数据库的主体,又称主文档,它按每条 记录的顺序号大小排列。检索结果都来自于顺排文档。 ⑵ 倒排文档是指数据库中的主题词索引、著者索引、 刊名索引等,它们按索引词的字顺排列。 检索时,计算机按输入检索词的字顺先从指定的倒排文 档中找到相匹配的索引词,然后根据索引词后的记录顺序号 到顺排档中调出相应的记录。 许多大型数据库往往包含数以万计的记录,为了方便用 户检索,常被分成若干个文档。例如:《中国生物医学文献 数据库》(CBMdisc)按收录文献的年限将数据库划分为若 干文档。截止2003年,CBMdisc共分为6个文档。