《化学信息学》读书笔记诺伯特·维纳对信息的著名定义:“信息就是信息,不是物质也不是能量。
不承认这一点的唯物论,在今天就不能存在下去。
”这句话深刻揭示了信息的重要地位,信息与物质、能量是客观世界的三大构成要素。
信息:事物的存在方式和运动状态的记录,它精确地描述物体或事件,并且可借助于一定的物质载体进行存储和传播。
从产生信息的客体的性质来分,可分为自然信息(声、光、热、电、天气变化、地壳运动、天体演化等)、生物信息(如遗传信息、生物体内信息交流、动物种群内的信息交流)、机器信息(自动控制系统)和(人类)社会信息。
以信息所依附的载体为依据,可分为文献信息、口头信息、电子信息、生物信息等。
信息与知识和文献之间的区别信息(Information):通过信号带来的消息。
知识(knowledge):人类社会实践经验的总结,是信息的一部分,需要通过信息使用归纳、演绎的方法得到。
文献(document):是用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识和信息。
情报(information,intelligence):激活了的知识。
性质有知识性、传递性及效用性。
经过传递的文献才是情报,资料是文献的通俗说法。
化学信息概论一.化学信息学的产生和发展:信息:实物的存在方式和运动状态的记录,它精确地描述物体或事件,并且可借助于一定的物质载体进行存储和传播。
化学信息学:是应用信息学方法解决化学问题的学科。
(化学信息学是信息科学与化学的交叉学科。
)二.化学信息学的研究领域:应用现代信息技术构建信息处理系统,处理长期积累的大量化学信息资源,帮助化学家组织、分析和理解已知的科学数据,正确地预测化学物质的性质,开发新化合物、材料和方法。
应用计算机科学方法或信息学解决化学问题,对化学信息进行有效的存储、操作和处理,使化学信息合理地提升为化学知识。
研究内容:化学、化工文献学;化学知识体系的计算机表示、管理与网络传输;化学图形学;化学信息的解析与处理;化学知识的计算机推演;化学教育与教学的现代技术与远程信息资源。
三.信息资源检索的意义与作用:1.启迪创新:科研工作具有继承和创新两重性,要求科研人员在探索未知进行创新之前,应该尽可能地继承和利用与之相关的信息。
2.拓宽视野:21世纪信息与知识的积累日新月异,出现了大量的边缘科学和交叉科学。
面对知识频繁更新的世界,需要接受终身教育,在不断的教育中更新知识,适应环境的变化。
3.培养能力:现代教育不单纯是知识的传授,更重要是要大力进行各种能力的培养,其中包括自学能力、思维能力、研究能力、表达能力、创新能力、终生教育能力、组织管理能力和收集处理信息的能力。
4.提高素质:信息素质是信息社会中实现对知识的探索和发现的综合能力,它是进入信息社会赖以生存的通行证。
四.化学信息学的课程内容:化学信息的产生和获取:利用检索工具、通过实验方法化学信息的表达、存储和管理:化学运筹学、数据整理可视化、数据库管理技术化学信息的加工和处理:化学计量学、化学软件、目的是获取更多的信息化学信息的深化:计算机模拟设计、化学结构的可视化以图形的方式对化学信息进行描述五.电子信息和数据库(一)电子信息:指通过计算机等设备以数字信号传递的数字信息资源组成的数据库。
1.联机信息资源,如:Dialog、STN、OCLC数据库2.光盘信息资源,包括单机版、网络版、联机版3.Internet网络信息资源(二)数据库:数据库是以特定方式合理地组织相互关联的数据集合。
1.数据库的结构:(1)记录型文献数据结构常用的字段:标题、作者、地址、期刊名、学科、文件类型、语种和摘要。
2.记录的排序和索引:(1)顺排文档:按记录号顺序排列;(2)倒排文档:各个记录按照某一字段的值进行排列。
六.信息检索的方法和步骤(一)信息检索的评价1.评价指标:查全率、查准率、漏检率、误检率、响应时间、用户负担、输出形式等。
2.查全率和查准率:(1)查全率(R):检索出的相关信息量(w)与该系统信息库中存储的相关信息量(x)的比率称为查全率,R=w/x ×100 %。
(2)查准率(P):检出的相关信息量(w)与检出信息总量(m)的比率称为查准率,P= w/m ×100 %。
两者之间存在互逆关系,即查全率高时,查准率较低,反之亦然。
(3)漏检率(O):O = 1 – R = 1- w/x × 100 % 。
(4)误检率(N):N = 1 - P = 1-w/m × 100 % 。
如果一个检索系统中与某一课题相关的信息共250条。
检索操作后,实际检出了400条信息,其中相关信息为200条,此次检索效率可计算为:R = [200 /250] × 100 %=80% O = 1-80% = 20%P = [200/400] × 100%=50% N = 1-50%= 50%3.位置检索:(1)With(W、nW),表示算符两侧的检索词按此前后衔接的顺序排列,词序不可颠倒。
(2)Near(N、nN)表示算符两侧的检索词必须紧密相连,两词词序可变。
(3)Subfield (S)表示算符两侧的检索词必须同时出现在文献记录的同一字段(句子、短语)。
(4)Field(F)表示算符两侧的检索词必须同时出现在同一个字段中。
(5)Citation(C)表示算符两侧的检索词必须同时出现在一条文献的记录中。
(6)Link(L)表示算符两侧的检索词之间有一定的从属关系。
4.限词检索:基本检索字段:题名、文摘、主题词、标识词;辅助检索字段:作者、语种、出版年代、期刊名称和文献类型。
基本检索字段主要有题名(TI)、文摘(AB)、主题词(DE)和标识词(ID),适用于各种数据库。
辅助检索字段主要有作者(AU)、语种(LA)、出版年代(PY)、期刊名称(JN)和文献类型(DT)等字段。
一般说来,数据库的提供的字段越多,其检索方式就越多,可以使用多字段构建复杂的检索表达式,进行高级检索。
七.信息检索步骤1.实施检索操作,获取检索信息;评估检索结果。
为了减少滥检、漏检和缺检,可进行检索策略的调整,主要分为缩检和扩检二种。
2.缩检主要方法有:主题细化;选择更专指的检索词;运用逻辑算符AND 、NOT;运用位置算符WITH、NEAR;减少字段检索;对检索结果进行二次检索。
3.扩检主要方法有:对己确定的检索词进行其同义词、同义的相关词、缩写和全称检索;利用数据库提供的词表输入规范词;使用运算符OR 等。
4.数据库的选择:(1)数据库的类型。
例如,书目数据库、事实数据库结构数据库;文摘数据库或全文数据库。
(2)数据库所收集的数据内容所涵盖的学科领域和收录范围。
(3)数据库的现状,包括数据库收录的文件类型、据量、存储年限、更新周期、语种、媒体介质和辅助工具。
(4)数据库的检索质量、权威性和检索速度。
(5)数据库提供的系统功能和检索方式。
(6)数据库的使用权和检索费用。
印刷类化学文献信息一.图书分类法简介(一)图书馆的重要地位和作用图书馆在网络环境下受到了相当大的冲击和挑战,但还能发挥其独特而无以替代的作用。
图书馆可推动和促进知识传播、教育普及、学术研究与交流等活动,它也要与信息产业中的其他机构协同合作,以求得更加长远的发展前景。
(二)图书馆图书的分类系统国际十进制分类法和中国图书馆图书分类法介绍几种国内外各大图书馆广泛应用的图书分类系统:(1)杜威十进位分类法;(2)国际十进位分类法;(3)美国国会图书分类法;(4)中国科学院图书分类法;(5)中国图书馆图书分类法。
1、中国科学院图书分类法根据我国的具体情况和科技发展的需要而制定的分类法,1958年开始使用,并几经修订形成目前的分类体系。
分类表分为五大部分,即马列主义、毛泽东思想;10哲学;20社会科学;50 -89自然科学90综合性图书。
2、中国图书馆图书分类法1973年北京图书馆联合全国有关图书馆共同编制了《中国图书馆图书分类法》(简称《中图法》),1999年第四版,目前已为我国许多图书馆和情报单位采用。
《中图法》是以科学分类为基础,结合图书文献的特点进行分类的。
将人类知识分为五大部分,22大类。
图书馆索书号:0622.2……中图号00----排架号可通过计算机索引查到索书号3、文献标识码:是用于标示文献正文内容类型的代码。
为便于文献的统计和期刊评价,确定文献的检索范围,提高检索结果的适用性,每一论文作者在撰写公开发表的论文或投稿时,都应根据“规范”所设的5种内容分类文献标识码,确定自己论文的分类项,并在中图分类号项后标注文献标识码。
这5种文献标识码所指代的文献内容的基本类型如下:A—理论与应用研究学术论文(包括综述报告)B—实用性技术成果报告(科技)、理论学习与社会实践总结(社科)C—业务指导与技术管理性文章(包括领导讲话、特约评论等)D—一般动态性信息(通讯、报道、会议活动、专访等)E—文件、资料(历史资料、统计资料、机构、人物、书刊、知识介绍等)二.化学文摘(Chemical Abstracts)名称(CA,Chemical Abstract)内容:以化学化工为主,涉及生物、医学、轻工、冶金、物理等领域,最常用的检索工具。
出版情况:周刊,两卷/每年,26期/卷特点:(1)摘录广泛,收录136个国家56种文字出版的14,000多种期刊,包括期刊、图书、学位论文、科技报告、会议论文、专利等,占总文献98%。
(2)出版迅速(3)索引完备组成:CA文摘和CA索引CA文摘的内容:以报道性为主,其内容包括研究的目的和范围、新的化学反应、化合物、材料、工艺、操作、设备、性质机器理论,新知识的应用,以及研究结果和作者的判断、结论等。
CA索引介绍:(一)主题索引(Subject Index )(1)1907~1915年初级阶段;(2)1916~1966年发展阶段;(3)1967~1971年成熟阶段;(4)1972~至今分成化学物质索引和普通主题索引,出现索引指南作为辅助工具。
(二)分子式索引(Formula Index)按分子式符号的英文字顺序排列,相同分子式下又按化学物质名称的字顺序排列。
分子式按Hill 系统排列,含碳化合物碳在前、氢在后,其他按字序;普通主题索引的主题词按学科内容分58各大类,排列成等级表,用点数表示主题级别,其格式为:54.TECHNOLOGICAL PROCESSES AND(三)登记号索引(Registery Number Index)化学文摘中化学成分、结构及化学键性质确定的每一种化学物质都编一个登记号。
1969年起出版登记号索引(71、72-73、74-75卷)1974年起改出登记号手册(CAS Registry Handbook Number Section)登记号由三部分组成,用短线联接,第一部分最多六位数,第二部分两位数,第三部分为一位数。