当前位置:
文档之家› 第二章 信息检索基础2013
第二章 信息检索基础2013
第一节 信息检索系统
一、信息检索系统
是根据特定的信息需求而建立起来的一种有关信 息收集、加工、存储和检索的服务工作系统。
可分为 手工检索系统 计算机检索系统
一、信息检索系统
按信息检索系统的实施手段可分为:
手工检索系统
脱机检索
计算机检索系统 联机检索
网络检索(光盘检索)
1. 脱机检索阶段
20世纪50~60年代
R 4 临床医学
R44诊断学
R441症状诊断学 R443物理诊断学(体检诊断) R441症状诊断学 R444电诊断 R443物理诊断学(体检诊断) R445影像诊断学 R444电诊断 R446.1生物化学检验、临床检验 R446实验室诊断 R445影像诊断学 R446.5微生物学检验 R447鉴别诊断学 R446实验室诊断 R446.6免疫学检验 R448机能诊断学 R446.8组织学检验 R447鉴别诊断学 R449预后及劳动鉴定 R446.9其他 R448机能诊断学 R45治疗学 R446.111血液一般(常规)检 验 R47护理学 R446.112血液生物化学检验 R48临终关怀学 R446.113血液细胞学检验 R49康复医学
文档(file):文档是按一定结构组织的相关记录的 信息集合。一个数据库可按年代和学科分割成若干个 文档。 记录(record):构成文档的基本数据单元。它是对 某一实体的全部属性进行描述的结果。它描述原始信 息的外部特征和内部特征,每条记录有许多个字段组 成,一条记录代表一篇原始文献的相关信息。 字段(field):比记录更小的单元,是组成记录的基 本要素。在书目数据库中,记录中含有题名、著者、 出版年、主题词、文摘等字段。
三、 关键词途径
是最常用的一种检索途径。
优点:利于新课题、新事物的检索。 缺点:没有严格的语法规范,个人使用
的爱好不同自由词选择不同,要查全, 需考虑同义词等。
输入
检 索 系 统 检 索 输出 结 果
检 检 索 索 分析 提 课 问 题 特 征
选用
范
形成
检索
2.1.3
检索语言
又称标引语言、索引语言、概念标识系统等 检索语言是为信息的加工、存储和检索 的共同需要而编制的专业语言。 是信息检索系统存储和检索信息时共同使用的 一种约定性语言,以达到信息存储和检索的一 致性,提高检索效率。 检索语言是检索系统的重要组成部分, 是沟通文献贮存和检索两个过程及标引人员与 检索人员双方思想的桥梁。
数据库的组成
2.数据库类型(按内容分型)
(一)书目数据库(Bibliographic Databases) (二)事实数据库(Numeric Databases) (三)数值数据库(Fact Databases) (四)全文数据库(Full Text Databases) (五)图像数据库(Image Databases)
数据库类型(按内容分型)
(四)全文数据库(Full Text Databases) :存储文献全文或节选 其中主要部分的数据库。可以直接获 取原始资料。
(五)图像数据库(Image Databases): 以图像为信息主体,配有文字解释。
文 献 文 信 标引著录 献 分析 息 信 特 息 征
(文 检献 索信 检 索 形成 点 息 )特 征 语 标 言 识 和 名 称 规 (检 检索 索提 词问 )标 识
叙词
是能表达文献主题并经过严格规范化处理 的词语,又称主题词。
特 点:具有概念性、描述性、组配性。 如我国《汉语主题词表》(1980出版)、美国《医学 主题词表》等。
美国《医学主题词表》
(MeSH,Medical Subject Headings)
特 点:
词义、词类、词形规范保证词语与概念的唯 一对应关系,具有专指性 采用参照系统显示词语之间的相关关系
数据库类型(按内容分型)
(一)书目数据库(Bibliographic Databases) 是机读形式的二次文献数据库,包括:目 录、题录、文摘等书目线索。 (二)事实数据库(Numeric Databases) 也称指南数据库,存储描述人物、机构、 事物的等非文献信息源的数据库。 (三)数值数据库(Fact Databases):为用户直 接提供所需的数据信息,无需再追查原文。
采用主题词分类索引(范畴表或树状结构)显示词语 之间的等级(从属)关系,增强了族性检索能力。
关键词语言
是直接从文献的标题、文摘或全文中抽 选具有实质意义、能表达文献主题概念,未 经规范化处理的自然语言词汇。
优点: ① 易于实现自动抽词和编制索引; ② 表达主题直观,检索入口多,能及时反映新事物新 概念。 缺点:检索质量难以保证,容易漏检。
国内常见的分类法有:
1.
2. 3.
《中国图书馆分类法》,简称《中图法》 《中国人民大学图书馆图书分类法》 《中国科学院图书馆图书分类法》
《中国图书馆分类法》
是我国建国后编制出版的一部具有代表性的大型综 合性分类法,简称《中图法》。英文译名为Chinese Library Classification,英文缩写为CLC。 将学科划分为5个基本部类,22个基本大类,再进 行层层划分,逐级展开,形成一个严格有序的直线性 知识门类等级体系。
第二章 信息系统的发展及组成; 2.理解分类语言和主题语言; 3.掌握各种检索途径的利用及其区别;
4.掌握常用的信息检索技术;
5.掌握信息检索策略的制定;
6.掌握查全率、查准率的概念及提高检索效果的措施。
信息检索就是充分利用信息检索系统,按照一 定的检索语言和规则对文献信息进行标引,按 照检索系统提供的检索途径,采用先进的信息 检索技术,制定合理有效的检索策略,快速、 准确、全面地检索出所需的文献信息。
R446.119其他
R446.11血液学检验 R446.12尿液检验 R446.13粪便检验 R446.14脑脊髓液检验 R446.19其他
优点: 体现了学科和专业的系统性,便于族性检索, 提高查全率。
缺点:
专指性较差,不能充分揭示信息资源中大量存在 的细小专深主题。 分类表中的类目不能随时更改,因而不能及时反 映新的科学技术。 按照直线序列设置类目,对边缘学科课题只能标 引在一门学科的类目之下,检索时可能漏检。
体 系 结 构
社会科学
自然科学
综合性图书
Z 综合性图书
R 医药、卫生
R 1 2 3 4 5 6 预防医学、卫生学 中国医学 基础医学 临床医学 内科学 外科学 R 74 75 76 77 78 79 神经病学与精神病学 皮肤病学与性病学 耳鼻咽喉科学 眼科学 口腔科学 外国民族医学
71 妇产科学
72 73 儿科学 肿瘤学
8
9
特种医学
药学
R 4 临床医学
R44诊断学 R441症状诊断学 R443物理诊断学(体检诊断) R441症状诊断学 R444电诊断 R443物理诊断学(体检诊断) R445影像诊断学 R444电诊断 R446实验室诊断 R445影像诊断学 R447鉴别诊断学 R446实验室诊断 R448机能诊断学 R447鉴别诊断学 R449预后及劳动鉴定 R448机能诊断学 R45治疗学 R47护理学 R48临终关怀学 R49康复医学
R441.1疼痛 R441.2眩晕 R441.3发热 R441.4心动过速 R441.5咳嗽、咳痰 R441.6呕血、黑便 R441.7咯血 R441.8呼吸困难 R441.9休克 R442.1厌食、恶心、呕吐 R442.2便秘、腹胀、腹泻 R442.3肝脾肿大 R442.4黄疸 R442.5腹水、水肿 R442.6痉挛 R442.7出血 R442.8综合征 R442.9其他
马克思主义、列宁主义、毛 泽东思想、邓小平理论
哲学、宗教
A 马克思主义、列宁主义、 毛泽东思想、邓小平理论
B
C D E F G H I J K N O P Q R S T U V X
哲学、宗教
社会科学总论 政治、法律 军事 经济 文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理 自然科学总论 数理科学和化学 天文学、地球科学 生物科学 医药、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学、安全科学
我国古代第一部成型的图书分类法是西汉刘向、 刘歆(xin)父子编制的《七略》。 西晋,荀勖(xu)创立了四部分类法,即甲、 乙、丙、丁四大部。 从隋唐起,图书的四部分类法已经基本定型。 皇家图书馆及秘书省、翰林院等重要典藏图书 之所,都是按照经、史、子、集分四库贮藏图 书的,名为"四库书"。
又称脱机批处理检索,用户提出的信 息需求是委托式的,交专业人员统一安排, 必须等待成批或定期处理。
缺点:检索结果延误。 优点:无网络通讯费,检索费用由用户平
摊,价格便宜。
2. 联机检索阶段
20世纪60~70年代
是用户利用终端设备,通过通信网络或 通信线路与检索系统联机,采用分时技术, 多个用户可以同时与主机“对话”,从检索 中心的数据库查找所需要的文献信息过程。
分类语言是用分类号作标识,具有学科系统性 的人工语言。 提供分类检索途径,具有族性检索的特点,但 专指性较差。 分类语言的特点: 分类语言较好地体现了学科和专业的系统性, 反映了事物的隶属、平行和派生的关系,提供 的分类检索途径,具有族性检索的特点,能获 得较高的查全率,但专指性较差,不适合专深 主题和多位概念的检索。
分类号基本知识介绍:以 R563.1为例
分类号
R R5
名称
医药、卫生 内科学
级别
一级类目 二级类目
R56
R563 R563.1
呼吸系及胸部系统疾病
肺疾病 大叶性肺炎