当前位置:
文档之家› 第一章 基础知识——信息检索语言与技术
第一章 基础知识——信息检索语言与技术
描写文献 外部特征 题名语言 著者语言 号码语言 文献信息分类 分类 语言 描写文献 内容特征 主题 语言 单元词语言 标题词语言 关键词语言 叙词语言 体系分类语言 组配分类语言 混合分类语言 网络信息分类 数据库信息分类
信息检索语言
1.3.1 文献信息分类语言
国内 《中国图书馆分类法》[中图法] 《中国科学院图书馆图书分类法》[科图法] 《中国人民大学图书馆图书分类法》 [人大法] 《中国图书分类法》台湾赖永祥编订 国外 《杜威十进分类法》[DDC] 《国会图书馆分类法》[LCC]
《中图法》
采用“五分法”形成五大部类。这五大部类的依据,
首先是毛泽东关于知识分类的论述,即世界上的知识 只有自然科学、社会科学和哲学三大部类;其次强调 马列主义的指导作用,将马列主义、毛泽东思想经典 作家的著作及相关文献独立为一个基本部类;最后是
由于文献的特殊性,即存在一些内容庞杂,无法具体
归入某一学科的文献,将其概括为“综合性图书”作 为一个部类。在五大部类之下,层层细分,划分出22 个基本大类,分别为:
《中图法》等级分类体系
H11 H12
H1 H2 H3 R1
H13
H14
H111 H112 H113 H121 H122 H123 H124 下位类
上位类
等级体系分类法
00 马克思列宁主义毛泽 72 能源学、动力工程 东思想 50 自然科学(总论) 电技术、电子技术 73 10 哲学 51 数学 74 矿业工程 20 社会科学(总论) 力学 52 75 金属学(物理冶金) 21 历史、历史学 53 物理学 76 冶金学 27 经济、经济学 54 化学 77 金属工艺、金属加工 31 政治、社会生活 55 天文学 78 机械工程、机器制造 34 法律、法学 56 地球科学(地学) 化学 81 36 军事、军事学 58 生物科学 83 食品工业 37 文化、科学、教育、医药、卫生 61 85 轻工业、手工业及生活 体育 65 农业科学 供应技术 41 语言、文字学 66 农作物 86 土木建筑工程 42 文学 67 园艺 87 运输工程 48 艺术 68 林业、林业科学90 综合性图书 49 无神论、宗教学
受英国科学家培根的知识分类影响,杜威法将所有的学科归纳成9大类,把涉
及全部知识而不能归入任何一门学科的图书总为第0类,称总论,序列在其他 学科知识之首。一级大类之下,以圆点相隔再分小类,称子类。每个一级大
类再分为10个子类(也有不足或超过的)依此类分下去,形成一个完整的层层
展开的等级体系。
《美国国会图书馆分类法》 (LCC)
信息检索语言的含义与作用
检索语言:是根据检索需要而创造的一种人工语言。 作用: 1、保证不同标引人员表征文献信息的一致性。 2、使内容相同及相关的文献集中化。 3、保证检索提问与文献信息标引的一致性。 4、保证检索者按不同需求检索文献信息时,都能获 得最高的查全率和查准率。
1.2 信息检索语言类型示意图
1.4.2 关键词语言
关键词:指那些出现在文献的标题(篇名、章节名)以至 摘要、正文中,对表达文献主题内容具有实质意义的语词, 亦即对揭示和描述文献主题内容来说是重要的、带关键性 的(可作为检索“入口”的)那些词语。 关键词基本上不作规范化处理。例如,“国际联机检索概 论”中的“国际联机”、“联机”、“检索”都是能描述 这篇文献的主题的,可以作为检索词。 概括地说,关键词法就是将文献原来所用的,能描述其主 题概念的那些具有关键性的词抽出,不加规范或只作极少 量的规范化处理,按字顺排列,以提供检索途径的方法。
类目名称
金属导电材料
注释
铝、铜、铁、镍、钼等 及其合金入此
《中图法》类目
Q O1 Q11
生物科学 „„„„„„„„„„„„一级类目 普通生物学 „„„„„„„„„„二级类目 生物演化与发展„„„„„„„„三级类目
Q111
Q111.2
进化论、生物系统发育„„„„ 四级类目
达尔文学说与研究„„„„„五级类目
Q 生物科学
R S T U 医学、卫生 农业科学 工业技术 交通运输
V 航空、航天 X 环境科学 Z 综合性图书
J 艺术 K 历史、地理
TB
TD TE
一般工业技术
矿业工程 石油、天然气工业
TQ
TS TU
化学工业
轻工业、手工业 建筑科学
TF
TG TH TJ TK
冶金工业
金属学与金属工艺 机械、仪表工业 武器工业 能源与动力工程
中国科学院图书馆图书分类法简表 (第三版) 71 工程技术
人大法简表
1.马克思主义、列宁主义、 毛泽东思想 2.哲学 3.社会科学、政治 4.经济 5.军事 6.法律 7.文化、教育、科学、体 育 8.艺术 9.语言、文字 10.文学 11.历史 12.地理 13.自然科学 14.医药卫生 15.工程技术 16.农业科学技术 17.综合参考
1 信息检索语言
信息检索语言 = 信息组织与存储的方法或规则
1 .1 什么是信息检索语言
回顾“信息检索原理图”,作为信息检索的桥梁—— 信息检索语言 含义:是根据信息检索系统存储和检索的需要而编制 的人工语言。 语言=词汇+语法 信息检索语言的词汇:分类号、检索词、代码 信息检索语言的语法:如何正确描述记录和有效地检 索记录的一整套规则。
类法,至少有135个国家和地区的20多万个图书馆在采用。
《杜威法》第一次发表于1876年,书名原为《图书馆编目排架用分类法及主
题索引),类表只有12页,加上导言和索引,总共42页。1885年出版第二版,
更名为《十进图书分类法及相关索引》,增加了类的级数,加深了细分程度, 这一版奠定了《杜威法》的体系。之后到1996年已出版第2l版。
TV
水利工业
TL
TM TN
原子能技术
电工技术 无线电电子学、电信技术
《中图法》
属于等级列举式分类法,特点是类目列举详尽,排列按 等级体系,从总体到局部,由大类到小类层层细分,单线 列举,形成树型结构,其中的等级体系一般根据学科属性 排列。
类目格式一般包括分类号、类目名称和注释。
例如: 分类号 TM241
医药卫生
农业科学 工业技术 交通运输 航空、航天
E 军事
F 经济 ’ 文化、科学、教育、体育 语言、文字
五、综合性图书
基本大类: (22种)
A 马列主义毛泽东思想邓小平理论
B 哲学 C 社会科学总论
N
自然科学总论
O 数理化科学 P 天文学、地理
D 政治、法律
E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学
510 数学 520 天文学 530 物理学 540 化学 550 地球科学 560 古生物学 570 生命科学 580 植物学 590 动物学
《杜威十进分类法》
“Dewey Decimal Classification “ 简称DDC或DC,由美国图书馆学家杜
威(Melvil Dewey)创制,是目前全世界使用最广泛、影响最大的图书资料分
根据“信息处理级别示意图”理解不同出版形式的信息源 之间的关系。
第二讲回顾:小结NO5
检索与查找的区别
信息检索的含义、原理、类型、意义
信息检索工具、方法、步骤
信息检索类型划分示意图
能通过“信息检索原理图”理解信息检索原理 能够借助“信息检索步骤示意图”理解并记忆 信息检索五步骤
1.3.2 网络信息分类
[很多情况下并不很清楚自己的信息需求,或者无法清楚表达 信息需要,需要通过类目浏览,获得一些基本信息,然后 再选择检索关键词]
搜索引擎【目录专题网站】 搜狗目录
google网页目录 学科信息门户
/ /
网络信息采集与利用
第一章:基础知识
——信息检索语言与技术
2010.5
第一讲回顾:小结NO4
信息源的三大划分标准:载体形式、处理级别、编辑出版 形式。其中后两种是极其重要的。 不同的需求选择不同的信息源。 哪些信息源是你撰写学术论文必须的
网络资源和数据库作为涉及到各种类型信息资源。
根据“信息源划分示意图”理解不同信息源划分之间的关 系。
开放目录 /
/
特殊资源分类[电影分类/软件分类/商业分类]
1.3.3 数据库信息分类
全文数据库,如《中国期刊全》文摘数据库 EI Village 2
分类语言优点
(1)分类语言是以学科划分类目,符合人们认识事物的规律
1.4 主题语言
主题:论述的对象和研究的问题 主题语言:以文献信息内容特征和科学概念的 词语为检索标识,并按字顺组织起来的一种检 索语言。
1.4.1 标题词语言
标题词:从自然语言中选取并经过规范化处理 的、表示事物概念的的词、词组或短语。 代表:EI中《工程主题词表》(简称SHE) 电脑---见(see)---计算机 局域网---参见(see also)---计算机网络
《中国图书分类法》(台湾)
000 100 200 300 400 600 700 800 900
310 总论 320 哲学 330 宗教 340 自然科学 350 应用科学 360 历史、地理 370 历史、地理 380 语文 390 美术 数学 天文 物理 化学 地质 410 生物、博物 420 植物 430 动物 440 人类学 450 460 470 480 490 441 442 443 444 445 446 447 448 449 土木工程 道路工程 水利工程 船舶工程 市政工程 机械工程 陆空交通 电气工程 核子工程