当前位置:
文档之家› 信息检索教程第3章 信息著录和标引
信息检索教程第3章 信息著录和标引
10
第3章 信息著录和标引
3.2.2 元数据
元数据的英文为Metadata,意为关于数据的数据。 在Internet中,元数据是指描述任何Internet数据和 资源,促进Internet信息资源的组织和发现的数据,以协 助对网络资源的识别、描述、指示其位置。
11
第3章 信息著录和标引
3.2.2.1 元数据的作用 元数据具有描述、定位、搜寻、评估、选择等多种功
9
第3章 信息著录和标引
中文文献的著录主要采用的是CNMARC,以共享我 国图书馆和信息部门的中文书目记录;西文文献的著录则 采用USMARC,以共享国外权威的西文书目记录。这里 重点介绍CNMARC。
CNMARC 记录
记录头 标区
地址目 次区
数据字 段区
记录分 隔符
注:各字段数据元素及其标准详细情况参见教材P47-51
31
Thank You!
32
主题词组配标引的形式
25
第3章 信息著录和标引
3.5 自动标引
3.5.1 自动标引概况
自动标引指直接通过计算机的操 作处理,赋予检索标识的活动。
在网络环境下,传统的手工标引 已经无法适应信息存储的需要,自动 标引由于具有较强的处理能力,能够 适应信息数量迅速增长的需要,处理 速度快,可以在一定程度上克服手工 标引人员由于主观因素而导致的标引 误差,增强标引结果的一致性,标引 成本相对较低等优点,呈现出明显的 优势,逐渐被广泛应用。
23
第3章 信息著录和标引
3.4.2 主题标引
主题标引指依据一定的主题词表,对文献的内容先进 行主题分析,再赋予文献语词标识的过程。目前,国内主 要采用《汉语主题词表》及其相关的专业词表进行主题标 引。
选词 规则
组配 规则
24
第3章 信息著录和标引
概念 交叉 组配
概念限 定关系 组配
连接 关系 组配
念赋予检索标识的过程。 主题概念转换按其复杂程度可以分为两种: (1)直接转换:这种转换比较简单,标引人员从词
表中直接选择与主题概念对应的分类号或主题词即可; (2) 分解转换:将复杂的主题概念首先进行分解,
然后再选择相应的主题词或分类号。 概念转换结束后,还要进行标引结果的审核,即审核
文献的分类或主题检索标识是否正确,包括文献主题分析 的正确性、充分性,检索标识的正确性等。
3.3.1 信息标引的 含义和质量控制
3.3.1.1 信息标引的含义
信息标引是指在分析文献内容的基础上,用某种 检索语言把文献主题以及其他有意义的特征标识出来, 它是文献存储与检索依据的一种文献处理过程。
信息标引
分类标引 主题标引
15
第3章 信息著录和标引
3.3.1.2 信息标引的质量 控制
信息标引质量的优劣,直 接影响到计算机的查全率和查 准率,影响到用户利用检索系 统的效率。尤其是随着大型数 据库的开发和利用,对于海量 的数据,必须组织大规模的集 体标引才可能完成任务因而, 关于信息标引的质量控制就显 得尤为重要。
自动分类是指由计算机系统自动提取信息的特征项, 依据一定的算法,将信息按内容或属性归到一个或多个类 别的过程。
自动分类
自动归类
自动聚类
Байду номын сангаас主要区别 是自动聚 类不需要 事先定义 好分类体 系,而自 动归类则 需要确定 好类别体
系
28
第3章 信息著录和标引
3.5.3.1 自动 归类
自动归 类是指计算 机系统按照 一定的分类 标准,将待 分信息划归 到不同类目 的过程。
4
第3章 信息著录和标引
《文献著录总则》 颁布时间:1983年7月 著录项目:① 题名与责任者项
② 版本项 ③ 文献特殊细节项
④ 出版发行项 ⑤ 载体形态项 ⑥ 丛编项 ⑦ 附注项 ⑧ 文献标准号及有关记载项 ⑨ 提要项
5
第3章 信息著录和标引
著录级次:
著录级次指著录文献的祥简程度。《文献著录总则》把著录项目 分为主要项目和选择项目两种。主要项目包括:题名和责任者项的正 题名、第一责任者;版本项;出版发行项的出版发行地、出版发行者、 出版发行日期;载体形态项。选择项目包括主要项目之外的所有其余 著录项目。 按著录的详略程度分三级:(1)简要级次:款目仅著录主要项目, 又称第一著录级次;(2)基本级次:著录主要项目的同时,还著录 了部分选择项目,也称第二著录级次;(3)详细级次:著录主要项 目和全部的选择项目,也称第三著录级次。
另一种是先找出文献所涉及的各种概念,并查明它们 之间的相互关系。文献中包含哪个因素就分析哪个因素, 有的因素不只一个就要全部分析出来,以便筛选和进行匹 配,然后,再将各个因素按照主题结构模式进行分析。
19
第3章 信息著录和标引
3.3.2.2 概念转换 主题概念转换是以主题分析为基础,将确定的主题概
6
第3章 信息著录和标引
著录格式:
指款目中各个著录项目的排列次序和表达方式。分为卡片式 款目著录格式和书本式款目著录格式两种。
正题名=并列题名:副题名及说明题名文字[文献类 型标识]/第一责任者;其他责任者.—版次及其 他版本形式/与本版有关的责任者.—出版发行地: 出版发行者,出版发行日期(印刷地:印刷者, 印刷日期)
信息著录标准是指在描述信息过程中所要依据的规则 和条例,是实现信息著录标准化的前提和根本。信息 著录标准包括国际标准和国家标准。
信息著录标准化进程中,近年来受到广泛关注的 热点之一,是网络信息资源的描述问题,亦即元数据 的记录问题。与传统信息资源相比,网络资源在资源 类型、结构、形式、描述环境、描述主体等方面存在 这不同,其描述规范也因此呈现多样化。
3.4.1.1 分类标引的基本原则
1
学科属性原则
2
专指性原则
3
实用性原则
4
系统性原则
5
一致性原则
22
第3章 信息著录和标引
3.4.1.2 各种类型主题文献的分类标引规则 1. 单主题文献的分类标引规则 2. 多主题文献的分类标引规则 3. 相关关系主题文献的分类标引规则
注:具体规则参见教材P58-59
30
第3章 信息著录和标引
1.信息著录的含义和作用是什么? 2.信息著录的标准有哪些? 3.什么是机读目录?试说明CNMARC的结
构。 4.什么是元数据?元数据有哪些作用? 5.试比较CNMARC和元数据。 6.简述信息标引的含义和步骤。 7.分类标引应坚持哪些原则? 8.主题词组配标引的形式有哪几种? 9.自动标引的主要方法有哪些? 10.如何评价自动分类?
提要
图3-2 书本式款目著录格式
8
第3章 信息著录和标引
3.2 机读目录 与元数据
3.2.1 机读目录
机 读 目 录 ( MARC ) 即 机 器可读目录的简称,来自英文 Machine-Readable Catalogue,是 利用计算机识读和处理的目录。 机读目录是描述文献著录项目 的国际标准格式,是实现计算 机处理书目信息及资源共享的 基础。
用,可以连贯有效地描述、管理、编目网络资源,以便用 户更方便地找到资源,并找到更多的相关资源。
1. 定位和检索 2. 著录和描述 3. 资源管理 4. 资源保护与长期保存
12
第3章 信息著录和标引
3.2.2.2 都柏林核心元素集(Dublin Core Elements Set)
都柏林核心元数据集(Dublin Core Elements Set) 是一种跨领域的信息资源描述标准,其应用的资源类型没 有根本性的限制。
26
第3章 信息著录和标引
统计标引法
3.5.2 自动标 语言分析标 引方法 引法
词频统计法 加权标引法 n-Gram标引法 统计学习标引法
句法分析标引法 语义分析标引法
人工智能标 JAKS标引法、WorldViews标引
引法
法和MedIndEx标引法
27
第3章 信息著录和标引
3.5.3 自动分类
基于词的归类技术
选择一种分类体系。利用现有分类法,形成归 类底表。
抽取关键词,与预先设计的“分类号 关键词” 所形成的矢量空间模式进行匹配,找出每个关键词 涉及的分类号。
把所有分类号进行逻辑运算、整理,结合复分 表索引库,得出每个分类号的权值级别。级别最高 的类,即为该文献应归的类。
基于知识的归类技术
20
第3章 信息著录和标引
3.4 分类标引 和主题标引
3.4.1 分类标引
文献分类标引是指依据一定的分类 检索语言,对文献内容的学科性质及其 有检索意义的形式特征进行分析、归纳, 赋予文献分类检索标识(分类号)的过 程。目前,国内主要依据《中国图书馆 分类法》来进行分类标引。
21
第3章 信息著录和标引
2
第3章 信息著录和标引
3.1.1.2 信息著录的作用 信息著录的目的是为了报道和检索信息,通过著录可 以浓缩文献信息的特征,起到揭示文献、报道文献,帮助 人们快速地了解文献,进而选择自己所需文献的作用。
具体作用如下: 1. 揭示功能 2. 组织功能 3. 检索功能
3
第3章 信息著录和标引
3.1.2 信息著录的标准
普通高等教育”十一五”国家级规划教材
信息检索教程
王立清 主编
第3章 信息著录和标引
本章要点
信息著录和标引是使 信息序化的过程。它通过 揭示信息的内在以及外在 特征,将分散无序的信息 重组,规范控制信息流向, 以便用户有效利用。
●介绍信息著录和标引的含义 与作用
●叙述信息著录和标引的发展 ●介绍元数据的定义与作用 ●比较机读目录MARC和都柏林
影响标引质量的因素 标引深度 专指度 一致性
16
第3章 信息著录和标引