化学信息学发展历史、现状以及未来趋势的探究
摘要化学信息学(ChemicalInformatics,Chemoinformatics,Cheminformatics),是在信息科学与计算机科学、互联网高速发展的前提下近几年快速成长的化学化工与信息科学、计算机科学的边缘交叉学科利用计算机及网络技术对化学信息进行收集、处理加工、管理分析、传播以达到化学信息的共享的目的。
化学信息学的实质是“从数据到知识”,随着化学信息的不断积累,化学信息学在化学及相关学科中必将发挥越来越重要的作用。
本文对于化学信息学在过去几十年内发展的历史、发展现状以及未来发展趋势都做了充足的探讨。
关键字
伴随着计算机的出现及其技术的高速发展,化学信息学也开始随之发展而起。
1973年,NSTO高级研究所夏季学校举办了一个研讨班,研讨班的名称定为“化
学信息学的计算机表征与处理”,将大量采用计算机处理化学过程或用计算机技
术分析化学信息的不同领域的科学家聚集在一起。
由于他们都是利用计算机辅助
化学研究,当聚在一起,他们意识到一个新的研究领域已经形成。
从此计算机科
学和信息学方法悄然进入化学领域。
1987年,法国化学家列恩(J.MLehn)在研
究复杂分子的反应过程中发现分子具有自组织、自识别的化学智能反应现象,识
别的概念包含着信息的展示、传递、鉴别和响应等过程,列恩首次提出“化学信息学”的概念,这也就是化学信息学研究的开始。
在列恩教授提出“化学信息学”的概念后,国外一些大学就开设了化学信息学课程并确定为研究生的研究方向。
于是大量从事化学信息研究的个人、团体开始出现,化学信息学在这段时间内迅速发展。
2000年,WendyA.Warr博士在第218节美国化学学会国家会议和博览会上做了一个关于“化学信息学的定义”的报告,将化学信息学的发展又一次推向高潮。
进入新世纪后,随着计算机及网络技术的迅猛进步,计算机技术能解决的化学问题越来越多,学科研发所耗费的成本也逐渐降低,化学工作者因此获得大
揭示化学信息的内在实质与内在联系,促进化学学科的知识创新。
2006年德国的JohannGasteiger提出一个广义的定义:化学信息学是利用信息学方法解决化学问题的学科。
而这一定义也是目前传播较为广泛的定义[2]。
以上各种定义,FrankBrown所提出的太过于片面,他仅仅强调化学信息学在药物分子设计过程中所起到的作用,而没注意到这门学科的在化学领域的其他作用;GregParis提出的定义关于化学信息获取后的分析、整理及管理注重太多,而没注重化学信息的获取及应用方面;邵学广等人提出的定义很详尽,但注重计算
机技术而没提及信息学方法在这过程中的作用。
但不管如何定义这门学科,化学信息学必定是一门新的化学分支学科,它结合计算机技术、信息学方法于一体,着重于研究物质分子所展现的信息。
3化学信息学发展现状
3.1化学信息学研究的内容
关于化学信息学研究的内容,学术界内各自有不同的看法和意见,但归根到底他们的意见其实是一致的。
比如说北大教授徐筱杰认为化学信息学研究的主要
的化学结构及相关信息,如立体化学参数、相关光谱数据(如NMR、MS等)、纯度数据、各种生物活性测定数据等存储在数据库中,使得方便存取、搜索调用。
2、构效关系(structure-activityrelationship,SAR)。
指应用各种化学软件,使用各种化学计量学方法(如多元线性回归分析方法等),计算分子描述子(或分子参数,分子描述符),建立各种构效关系模型,并使用各种检验方法(如交叉检验、分组检验等)检验模型是否合适,从而研究化学结构与生理作用或生物活性间的关系预测化合物的性质,指导设计出具有更高活性的化合物,最终提高设计分子的成功率。
3、虚拟数据库组装技术(virtualdatabaseassembly)。
通过计算化学结合各种基元化学分子结构和片段,虚拟合成大量的候选化合物,组装、存储在虚拟数据库中,然后在这个虚拟数据库中筛选合适的的目标化合物分子。
遗传算法(geneticalgorithm,GA)在其中是一个重要工具。
遗传算法是基于生物进化理论的随机全局搜索方法,包含交叉操作、变异操作、遗传操作,能对一个虚拟数据库中各个计算化学性质特性值进行优化以达到最优化。
4、数据库挖掘技术(databasemining)。
根据化合物分子的2D或3D相似性度量、分子形状、化合物分子构架或根据受体和配体之间的三维结构等特性从数
现代药物分子设计与开发,不仅会浪费大量人力物力财力,而且大大增加了药物开发的周期,这对于当今社会对新兴药物的急需情况来说是个重大的问题。
因此引进化学信息学方法,进行现代化的新型的药物分子设计方法,对药物开发的重要性不言而喻。
在现代药物分子设计过程中,结合了包括数学、生物学、计算机应用、药物学、化学等多个学科在内的知识,主要研究如何表征化合物分子结构、如何区别各种不同化合物之间的差异、如何识别类药分子、如何建立适当的数据库以满足多样性、探究分子结构与生物性能的关系等等。
在这个过程中各个学科
之间能否以及如何实现有机、完美的结合将对药物分子设计和开发起着至关重要的作用。
图1.药物分子设计中各学科的交叉
计算机辅助药物分子设计(CADD)是现代药物分子设计中重要的方法,它已经发展成为一门完善和新兴的研究领域,是目前药物设计中至关重要的一环,大大促进了药物设计和新药开发的效率。
图2.计算机辅助药物分子设计
ADME&T预测[3]。
A(absorption):机体对外源化学物的吸收,如外源化合
合物。
4化学信息学未来发展趋势
正如文章开头所讲,化学信息学的实质是“从数据到知识”,通过各种化学信息库的建立与分析,总结出规律,最大限度地挖掘、开发和应用化学信息。
因此化学信息学在相关的各个领域内发挥着越来越重要的作用。
药物开发、材料设计、复杂体系分析、海量数据挖掘与知识发现以及新算法的研究将仍然是这门学科关注的重点和热点问题。
数据挖掘和知识发现是化学信息学的核心内容,对于海量的生命科学及医药研究数据,如何从中挖掘出最有用的信息,是对化学信息学的巨大挑战。
分子动力学、QSAR等分子模拟方法在化学、生物领域的应用,也有待更深入广泛的工作,与化学信息学相关的领域如前面所提到的材料、医药、化工等众多领域都会带来长足的发展。
解释实验现象,指导实验的发展仍然是重要的研究课题。
更高效、快速的优化算法仍是关注的焦点,针对特定的化学问题进行优化算法研究可能是一个重要的突破口。
算法研究是化学计量学的基本任务,。
算法研究的目的是解决化学实际问题,因此结合化学实际问题进行新算法研究是化学信息学重要
[6].陈泓,曹庆文,李梦龙.化学信息学发展现状.化学研究与应用,2004,16(04):453-455.
[7].邵学广,徐筱杰.化学信息学(计算机化学)的研究进展,《化学学科发展研究报告(2008-2009)》2008年.
[8].徐光宪.关于化学信息学的探索与思考.中国科学,2007,37(1):6-11
[9].邵学广.化学信息学及最新进展.第九腐化学前沿学科青年学者研讨会会议论义集:83-84.
[10].。