药物信息学初步1药物信息学:a药物信息学是有关药物研究和开发过程中所涉及的大量小分子、大分子及其相互作用信息的学科。
b药物信息学,简单说来就是化学信息学和生物信息学的加和。
c也包括类药性、药物代谢动力学性质和毒性预测、药靶预测、高内涵筛选及代谢模型等综合信息在新药发现和发展中的整合、分析和应用。
2化学信息学与生物信息学•化学信息学(Chemoinformatics,Chemical Informatics),简而言之,一切与小分子化合物有关的计算机操作和运算都属于化学信息学的研究范畴,包括小分子的结构、构象、能量、性质等,也包括小分子与大分子的相互作用,还包括小分子的设计。
•化学信息学的研究已有较长的历史,比如1960年代出现的QSAR,但作为学科名词1998年才首次出现。
•与之相对的是生物信息学(Bioinformatics或Biological Informatics)。
生物信息学是随着人类基因组计划的实施而出现的,最初仅是指对基因组序列的比较分析。
但现在已发展到既对生物大分子的序列、也对生物大分子的结构、构象进行研究。
针对生物大分子结构、功能等的计算研究,叫做计算生物学(Computational Biology)。
3 化学信息学在药物设计中的主要应用●虚拟组合化学库的设计;●化合物数据库的相似性分析与多样性分析;●化合物数据库的类药性分析、ADMET性质预测;●化合物数据库的虚拟筛选;●。
4 为什么要进行ADMET预测●ADMET是候选药物临床研究失败的主要原因(占60%)。
●ADMET评估已成药物研发的关键,需尽早进行。
●由于ADMET涉及药物体内过程,因此评估非常困难。
●实验评价ADMET缺点:代价大、周期长,一般在临床前研究阶段才开始进行,且动物数据与人体数据并不完全一致。
●计算机预测ADMET优点:代价低、速度快,可以在化合物合成之前进行,也可以与先导物优化一起进行,这样可将理论上具有不良ADMET性质的分子尽早排除,从而降低失败率。
5 ADMET预测的基本要求●要有大量可靠的实验数据供使用;●要有合适的方式对分子结构进行表达;●要有合适的建模方法及评价指标。
6 常规ADMET预测方法●分子结构采用分子描述符进行表达;分子描述符与性质之间采用统计回归分析方法建立预测模型。
●存在的问题:分子描述符是间接描述分子,具有计算繁杂、数据可能不准确,数量众多而难以取舍,模型可解释性差等问题。
7 基于子结构模式识别的ADMET预测方法●新方法:分子结构采用分子指纹进行表达;分子指纹与性质之间采用机器学习方法建立预测模型。
●优点:跳过分子描述符而直接从分子结构出发来预测分子性质,提高了预测精度;采用信息增益技术识别关键子结构,建立的模型具有可解释性;等等。
8生物信息学在药物设计中的应用●药物作用新靶标的发现与确证:♦人体内靶标♦病原体内靶标●蛋白质序列比较、分析;蛋白质结构相似性比较、同源蛋白的识别。
●蛋白质二级结构与三维结构的预测。
9 序列比对(sequence alignment)●序列比对指将两个或多个序列排列在一起,标明其相似之处。
序列中可以插入间隔(通常用短横线“-”表示)。
对应的相同或相似的符号排列在同一列上。
●这一方法常用于研究由共同祖先进化而来的序列,特别是如蛋白质序列或DNA序列等生物序列。
●将未知序列同数据库中的已知序列进行比较分析,可以预测未知序列的结构、性质或功能,已成为生物学家一个强有力的研究手段。
10 序列比对同一性(Identity):两个蛋白质有一定数量的氨基酸在比对的位点上是相同的,例如:如果100个氨基酸残基的蛋白质中50个位点相同,我们说它们50%相同。
相似性(Similarity):通常在某些位点上有一些氨基酸被另外一些化学物理特性相近的氨基酸所代替,这种突变可称为保守突变。
将保守突变的因素考虑在内,就可以定义各种打分方案(scoring schemes)对两序列的相似程度打分,所得分值即代表其相似的程度。
同源性(Homology):只有当两个蛋白质在进化关系上具有共同的祖先,才可称它们为同源的。
11 蛋白质结构的实验测定●X-ray 晶体衍射◆需要生长蛋白质晶体(这对一部分蛋白质几乎是不可能的,总之,不容易)◆衍射图样能进行反傅立叶变换来表征电子密度(这有“相”的问题)●核磁共振谱(NMR)◆能提供距离约束,但很难发现对应的结构◆只适用于相对较小的蛋白质12 蛋白质二级结构预测●由蛋白质二级结构统计分析得到的规则可用于全新蛋白质设计或者蛋白质突变体的设计;●当序列同源性较低时,二级结构的确认有助于确定蛋白质间结构和功能的关系;●在同源蛋白质模建中,二级结构预测有助于建立正确的序列比对关系;●在基于二级结构片段堆积的三级结构预测中正确的二级结构预测是第一步;●二级结构的预测有助于多维核磁共振中二级结构的指认,同时也有助于晶体结构的解析。
●基本依据:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。
●因此二级结构预测需要通过统计和分析发现这些倾向或者规律,二级结构预测问题自然就成为模式分类和识别问题。
●蛋白质二级结构的形成规律性比较强,所有蛋白质中约85%的氨基酸残基处于3种基本二级结构状态(α-helix,β-sheet, βturn)。
●预测目标:判断每一个氨基酸残基是否处于3种之一的二级结构态。
13 蛋白质三维结构预测●Ab initio预测:不依赖已知结构的同源相似物信息,直接预测一个序列对应的蛋白质三级结构(3D 构象)●穿针引线法(Threading,folding recognition):通过研究同已知线段序列的吻合度得到结构信息●同源(Homology)模建:根据序列同源性分析、调整已知结构进行结构预测●第一种即从头预测的方法是采用分子力学和分子动力学的方法,根据物理化学的基本原理,直接从理论上计算蛋白质分子的空间结构。
●第二、三种方法一般称之为基于知识的蛋白质结构预测方法,该方法的基本思想是通过对已知空间结构的蛋白质进行研究和分析,找出蛋白质一级结构和空间结构之间的联系,总结出一定的规律并建立一些经验规则。
14 同源模建(Homology Modeling)●基本假设:蛋白序列的同源性决定了蛋白三维结构的同源性,一个未知结构的蛋白质分子(目标蛋白)的三维结构可以通过与其序列同源性较高且结构已知的蛋白质(参考结构)进行预测。
●一般来说,若模型蛋白序列(目标序列)与参考蛋白序列之间的同源性在50%以上,则通过参考蛋白准确搭建出来的蛋白具有很高的准确性;若序列同源性在30%~50%之间,则通过参考蛋白准确搭建出来的蛋白具有较好的准确性;若序列同源性在30%以下,则通过同源模建的方法很难得到好的模建结构。
●同源模建法是一个比较成熟的方法,得到了广泛的应用,它能帮助我们了解蛋白质结构和功能之间的关系以及帮助我们发现新药并改进药物的设计。
15 结构保守性分析●即确定同源蛋白质的结构保守部分(SCR),判定的方法有:◆从直观方面:蛋白质分子的疏水内核保守性比亲水表面高。
◆借助于序列比对(Alignment):保守的序列片断通常对应于结构中的保守区域,而序列中经常发生插入或删除的位置则常与结构中保守性很差的无规卷曲相对应。
◆做结构比较:即确定一组类似结构中完整的一套残基位置等价关系。
常用的等价位点的定义为:两结构经适当的旋转平移操作重叠后,间距小于一定阈值的任何一对位点。
模板结构匹配后,一般再用得到的同源体的SCRs的每一条序列与目标序列匹配,挑选并把目标序列上的高相似区作为目标蛋白的SCR。
16 主链结构预测●保守区域主链结构预测◆基本做法是做序列比对,之后根据残基间的对应关系,将已知结构中的片断拷贝到未知机构中去。
具体有两种方法:刚体装配法(rigid body assemble)与加权平均法。
◆非保守区域主链结构预测◆数据库查询✓数据库查询方法的出发点在于假定具备相似末端的等长片断,其结构相似。
◆系统构象搜索方法。
✓对待定的二面角进行格点搜索。
如前所述,对于蛋白质主链来说,每个残基有三个二面角中ω角可以认为不变,φ和ψ角根据能量计算和对结构数据的统计分析都表明两者是相互影响的,集中在Ramachandren图中的几个区域内,因此可以用φ和ψ的一些代表性组合来进行构象搜索。
即使这样,构象总数仍然相当大,因而在进行能量计算前,需先对构象进行初步筛选,主要判据有:端点位置是否合理和范德华表面碰撞。
此外,也有考虑主链结构φi+1和ψi相关性的构象搜索方法。
17 侧链结构预测●理论模拟计算◆按照一定的规则产生构象并采用一些的具体方法进行进一步的筛选,一般可以找到合理的构象,但是计算量比较大。
◆数据库算法◆数据库算法主要是基于侧链转子库(rotamer library)的方法,选取一些侧链二面角具有确定取向的优势代表构象进行计算,从而大大减小了计算量,也能得到比较可靠得结果。
18 结构优化●通过以上三步预测得到的蛋白质结构模型通常含有较多的不合理的原子间接触,因此必须进行能量优化。
优化常用分子力学和分子动力学方法,对于结构保守区的主链原子一般要加上谐性限制。
19 模型质量的检验●主要从几何和能量等方面来检验◆几何方面:Ramachandren Plot(二面角),Prostat (键长、键角、二面角等)◆能量方面:✓Prosa(氨基酸序列和其自然折叠之间一致性的质量以及残基之间的相互作用能)✓Profile 3D(检查序列和折叠之间相容性)。