当前位置:文档之家› 信息检索基本知识

信息检索基本知识


T
TB TG TH TE …… TU TV
TB1
TB2
TB3
TB4
…… TB48 …… TB488
……
TB482
TB489
T—工业技术类中图法举例
以T-工业技术大类下的TP类展开下位类如下: T 工业技术 TP 自动化技术、计算机技术 TP3 计算技术、计算机技术 TP39 计算机应用 TP393 计算机网络 TP393.0 一般性问题 TP393.01 计算机网络理论 TP393.02 计算机网络结构与设计
二、文献信息源类型
文献可按不同的方法分类描述,比较常见 的分类方法有如下三种: 按信息的载体形式划分(印刷、胶片、 电子文献等); 按信息加工的级别划分(四次文献); 按信息的发布形式划分(十大文献信 息源等)
1、按文献的载体形式划分
• 印刷型(Printed form):以纸张为载体 • 缩微型(Microform):以感光材料为载体:胶片 • 声像型(Audio-Visual form):以声像记录材料为 载体:磁带 • 电子型(Machine Readable form):以计算机信息 存储设备为载体 :软磁盘、光盘、硬盘等
叙词
•叙词是主题语言的高级形式。是以较正规和正式的 科学名称为基础组织而成一种主题法检索标识系统。 •由在概念上不可再分的基本概念单元词汇组成,检 索时可以利用这些单元词进行组配,以表达一个复杂 的概念。
•如课题: 太阳能热水器研究 汉语主题词表中正式主题词是太阳能利用、太阳 能加热等代替。
标题词
• 国际十进分类法(UDC: UDC(Universal Decimal Classification)
又称为通用十进制分类法。是世界上规模最大、用户 最多、影响最广泛的一部文献资料分类法。原由比利 时人P.-M.-G.奥特莱和H.-M.拉封丹在《杜威十进分类 法》第6版的基础上编成。近百年来,UDC已被世界 上几十个国家的10多万个图书馆和情报机构采用。 UDC目前已成为名符其实的国际通用文献分类法。
•索引 将文献中具有检索意义的事项(可以是人名、 地名、词语、概念、或其他事项)按照一定方式有 序编排起来,以供检索的工具书。 在计算机信息检索系统中称为索引文件。 机械加工 00003 00395 11009 14561 --模型 00375 --误差 18007 11456 --发展 13175
某些目录型文献也称为索引,如美国《医学索 引》,我国《全国报刊索引》。
•文摘
“文摘”的含义通常有二:
一指文摘类检索刊物,例如《化学文摘》、《电 工文摘》, 同题录相比,著录项目较多,加工深度 较深,揭示文献内容特征,其检索功能较题录好。 二是指文摘类检索刊物中的文摘条目。
三次文献类型(参考工具书)

如社会调查过程中一次产生的调查问卷 原始数据、数据表、调查报告

文献:记录有知识的一切载体 《文献情报术语国际标准(草案)》 (ISO/DIS5127):“为了把人类知识传播 开来和继承下去,人们用文字、图形、符号、 声频、视频等手段将其记录下来,或写在纸上, 或晒在蓝图上,或摄制在感光片上,或录到唱 片上,或存贮在磁盘、光盘上。这种附着在各 种载体上的记录统称为文献。”
•标准文献:标准化主要包括三个方面:产品标准化,即 产品质量要符合技术规定;零部件通用化;产品规格化和 系列化。 •政府出版物 :大致可分为两类:一类是行政性文件,包 括会议记录、司法资料、条约、决议、规章制度以及调查 统计资料等。另一类是科技性文献,包括研究报告、科普 资料、技术政策文件等。
•科技档案:是保存备查的直接记录和反映科技、生产活 动的科技文件,是科学技术档案的简称。
三 信息检索语言
信息检索语言:
• 应文献信息的加工、存储和检索的共同需要而发 展起来的专门语言. • 在信息存储过程中,用它来描述信息的内容和外 部特征,形成信息特征标识,以便于将信息以一定的 特征存储于检索系统中。 • 在信息检索过程中,用它来描述检索提问,形成 检索提问标识,以便于准确、全面、迅速地从检索系 统中获得所需要的信息。
信息检索基本知识
主要内容
一.数据、信息、知识、文献 二.文献信息源类型 三.信息检索语言 四.信息检索途径 五.信息检索类型 六.信息检索系统 七.信息检索方法 八.信息检索步骤
一、数据、信息、知识、文献
精炼的知识 记录下来的知识
智慧
文献 知识
对信息的理解与认识
有组织的数据 信息的原材料
信息
数据
中国古代工具书
• 字词典:使用部首法排序。如《说文解字》、 《康熙字典》。
• 韵书:把汉字按照字音分韵编排的一种书。这 种书主要是为分辨、规定文字的正确读音而作, 属于音韵学材料的范围。同时它有字义的解释 和字体的记载,也能起辞书、字典的作用。如 《切韵》 、《唐韵》、《佩文韵府》。
• 类书:类书就是搜集汇编同类资料,征引、检索、 传播原著文献为目的的参考类工具书。如宋《太 平御览》、明《永乐大典》。 • 政书:主要记载典章制度沿革变化及政治、经济、 文化发展状况的专书 。唐.杜右《通典》、《元典 章》、《明会典》、《清会典》等。
分类号( TP393.02:计算机网络结构与设计)检索
3 主题语言
•关键词 •叙词
自然语言
规范化主题语言,人工语言
•标题词
关键词:用直接来自文献或用户提问的一类检索
语言。为大多数计算机检索系统采用。 •优点:不受词表控制,使用方便准确,能及时检 索到最新概念的各类文献,可任意使用专指性强 的词语,查准率高 •缺点:容易产生误检、漏检。
• 代码:包括国际标准书号(ISBN)、国际标准刊 号(ISSN)、元素符号、分子式、专利号、标准 号、报告号、合同号等,在相应的专业领域内有 显著的检索价值 • 引文:引用文献和被引用文献的相互查找。
2、分类语言(分类方法)
000 总论 • 杜威十进分类法 (DDC: Dawey Decimal 100 哲学 Classification and Related Index ):200 是世界上比 宗教 较流行,也比较权威的一种图书分类方法。由美 300 社会科学 国图书馆学家麦维尔·杜威于1876年首创,它由 400 语言学 大类、门、纲、目、子目等组成。 500 纯粹科学 600 技术科学 将全部学科的书刊分为九大类,用1 700 美术 到9间的数字表示,不属于这九类中 800 文学 的图书为第0类。每一大类下再分1 900 历史 到9个子类,依此类分下去。
中国图书馆图书分类法
• 简称《中图法》,由中国图书馆图书分类法编辑委 员会编。1975年科学技术文献出版社出版第一版。 • 使用字母与数字相结合的混合号码,基本采用层累 制编号法。 • 《中图法》主要供大型图书馆图书分类使用。另外 为适应不同图书信息机构及不同类型文献分类的需 要,它还有几个配套版本:《中国图书资料分类 法》、《中国图书馆图书分类法(简本)》和 《〈中国图书馆图书分类法〉期刊分类表》等。 • 自1988年起,中国出版图书的标准书号中采用《中 图法》的大类号。
关键词检索产生误检、漏检的原因:
• 取名的多样:一词多义(索引、博客)、多词一义 (火房-灶房-厨房)、全名与简称(Wto-世界贸 易组织)、异称(学名、俗名、音译名:阿司匹林- 乙酰水杨酸,白金-铂,胆矾-蓝矾-硫酸铜- CuSO4)。
• 构词的多样:派生词( literacy→illiteracy , Balance→imbalance ,nutrition→malnutrition )、 单复数、拼写变体( centre (BE)与center (A E), defence (BE ) 与defense (A E) )、 大量的复合词( a darkroom-a dark room, a grandpiano(三角钢琴) - a grand piano(大钢琴) )
作者
描述文献外表特征的语言
题名
其他(出版者、刊 名、引文、代码 等)
检索语言Βιβλιοθήκη 分类语言 描述文献内容特征的语言
主题语言
1、外部特征语言
• 题名:包括书名、篇名、刊名 • 作者(责任者):个人作者责任者、团体责任者、 编者、专利权人等。 作者检索的作用?
通过作者检索可以发现同一作者名称下学科内容 相近或有内在联系的文献,有利于系统研究某一 方面的问题或某一著者的全部著作和学术思想, 在一定程度上满足族性检索的要求。
客观事物本身的运动
事 物 运 动
产生
信 息
人脑 有序化
知 识
用于实践
新 的 信 息
记录在 载体上 文献
传递运用


数据:是对客观事物本身运动的记录,是信息 的原材料。
信息:是有组织的数据,是对数据整理提炼出 来的消息,是知识得以形成和传播的中介,而不 是知识本身。 知识:是对信息的理解与认识。知识是经过精 心研究、领会后的有用信息,是人类对信息加工 处理后的产物。获得知识有赖于获得信息。
•《中国图书馆图书分类法》大类
A B C D E F G H I J K 马克思主义、列宁主义、毛泽东思想 哲学 社会科学总论 政治、法律 军事 经济 文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理
社 会 科 学
自 然 科 学
N O P Q R S T U V X Z
自然科学总论 数学科学和化学 天文学、地球科学 生物科学 药学、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学、劳动保护科学 综合性图书
• 与叙词一样是以较正规和正式的科学名称为基 础的一种主题法检索标识,但存在主、副标题 词固定搭配,即属于先组式检索语言。 •如:
• 名录:经济机构名录,如《世界企业500强》;商品 名录,如《美国进出口商品名录》;地名录,如《世 界地名录》;人名录,如《当代中国经济学家录》。 • 资料汇编:把有关原始资料按一定方式编排起来以供 人们使用的工具书。
相关主题