当前位置:文档之家› 蛋白质结构预测方法综述

蛋白质结构预测方法综述

蛋白质结构预测方法综述卜东波陈翔王志勇《计算机不能做什么?》是一本好书,其中文版序言也堪称佳构。

在这篇十余页的短文中,马希文教授总结了使用计算机解决实际问题的三步曲,即首先进行形式化,将领域相关的实际问题抽象转化成一个数学问题;然后分析问题的可计算性;最后进行算法设计,分析算法的时间和空间复杂度,寻找最优算法。

蛋白质空间结构预测是很有生物学意义的问题,迄今亦有很多的工作。

有意思的是,其中一些典型工作恰恰是上述三步曲的绝好示例,本文即沿着这一路线作一总结,介绍于后。

1 背景知识生物细胞种有许多蛋白质(由20余种氨基酸所形成的长链),这些大分子对于完成生物功能是至关重要的。

蛋白质的空间结构往往决定了其功能,因此,如何揭示蛋白质的结构是非常重要的工作。

生物学界常常将蛋白质的结构分为4个层次:一级结构,也就是组成蛋白质的氨基酸序列;二级结构,即骨架原子间的相互作用形成的局部结构,比如alpha螺旋,beta片层和loop区等;三级结构,即二级结构在更大范围内的堆积形成的空间结构;四级结构主要描述不同亚基之间的相互作用。

经过多年努力,结构测定的实验方法得到了很好的发展,比较常用的有核磁共振和X光晶体衍射两种。

然而由于实验测定比较耗时和昂贵,对于某些不易结晶的蛋白质来说不适用。

相比之下,测定蛋白质氨基酸序列则比较容易。

因此如果能够从一级序列推断出空间结构则是非常有意义的工作。

这也就是下面的蛋白质折叠问题:1蛋白质折叠问题(Protein Folding Problem)输入: 蛋白质的氨基酸序列输出: 蛋白质的空间结构蛋白质结构预测的可行性是有坚实依据的。

因为一般而言,蛋白质的空间结构是由其一级结构确定的。

生化实验表明:如果在体外无任何其他物质存在的条件下,使得蛋白质去折叠,然后复性,蛋白质将立刻重新折叠回原来的空间结构,整个过程在不到1秒种内即可完成。

因此有理由认为对于大部分蛋白质而言,其空间结构信息已经完全蕴涵于氨基酸序列中。

从物理学的角度讲,系统的稳定状态通常是能量最小的状态,这也是蛋白质预测工作的理论基础。

2 蛋白质结构预测方法蛋白质结构预测的方法可以分为三种:同源性(Homology )方法:这类方法的理论依据是如果两个蛋白质的序列比较相似,则其结构也有很大可能比较相似。

有工作表明,如果序列相似性高于75%,则可以使用这种方法进行粗略的预测。

这类方法的优点是准确度高,缺点是只能处理和模板库中蛋白质序列相似性较高的情况。

从头计算(Ab initio ) 方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。

生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。

然而由于巨大的计算量,这种方法并不实用,目前只能计算几个氨基酸形成的结构。

IBM 开发的Blue Gene 超级计算机,就是要解决这个问题。

穿线法(Threading )方法:由于Ab Initio 方法目前只有理论上的意义,Homology 方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性,对于其他大部分蛋白质来说,有必要寻求新的方法。

Threading 就此应运而生。

以上三种方法中,Ab Initio 方法不依赖于已知结构,其余两种则需要已知结构的协助。

通常将蛋白质序列和其真实三级结构组织成模板库,待预测三级结构的蛋白质序列,则称之为查询序列(query sequence)。

3 蛋白质结构预测的Threading 方法Threading 方法有三个代表性的工作:Eisenburg 基于环境串的工作、Xu Ying 的Prospetor 和Xu Jinbo 、Li Ming 的RAPTOR 。

Threading 的方法:首先取出一条模版和查询序列作序列比对(Alignment),并将模版蛋白质与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。

比对的过程是在我们设计的一个能量函数指导下进行的。

根据比对结果和得到的查询序列的空间坐标,通过我们设计的能量函数,得到一个能量值。

将这个操作应用到所有的模版上,取能量值最低的那条模版产生的查询序列的空间坐标为我们的预测结果。

需要指出的是,此处的能量函数却不再是热力学意义上的能量函数。

它实质上是概率的负对数,即,我们用统计意义上的能量来代替真实的分子能量,这两者有大致相同的形式。

p E log −=如果沿着马希文教授的观点看上述工作 ,则更有意思:Eisenburg 指出如果仅仅停留在简单地使用每个原子的空间坐标(x,y,z)来形式化表示蛋白质空间结构,则难以进一步深入研究。

Eisenburg 创造性地使用环境串表示结构,从而将结构预测问题转化成序列串和环境串之间的比对问题;其后,Xu Ying 作了进一步发展,将蛋白质序列表示成一系列核(core )组成的序列,Core 和Core 之间存在相互作用。

因此结构就表示成Core 的空间坐标,以及Core 之间的相互作用。

在这种表示方法的基础上,Xu Ying 开发了一种求最优匹配的动态规划算法,得到了很好的结果。

但是由于其较高的复杂度,在Prospetor2上不得不作了一些简化;Xu Jinbo 和Li Ming 很漂亮地解决了这个问题,将求最优匹配的过程表示成一个整数规划问题,并且证明了一些常用的求解整数规划问题的技巧,都已经自然地包含在约束中。

3.1 Eisenburg 基于环境串的方法结构的形式化表示:环境串,其中每个特殊字符表示一种环境。

求解算法:序列串和环境串之间的比对 复杂度:O(mn)对于模板库中每个已知结构的蛋白质,将其转化成由特殊字符组成的一个串。

即对于每个氨基酸,研究其所处的环境,包括疏水性、包埋面积等,并据此分为多个不同的类别,每一类都使用一个特殊字符表示。

至于对于多个度量形成的空间,如何划分成一些子空间,Eisenburg 在已知数据的基础上做了比较精细的工作。

将已知结构转化成特殊字符形成的环境串,则结构预测问题就转化成序列串和环境串的比对问题,即寻找序列串和环境串之间的最佳联配。

那么如何来衡量联配的优劣呢?解决这个问题必需设置一种打分系统。

Eisenburg 还是沿着概率和统计的路线,统计了每种氨基酸在每种环境下出现频率,计算出一个分数,从而构成打分系统。

对于一些蛋白质,Eisenburg 的方法取得了很好的结果,比如在对几个蛋白质家族globin, cyclic AMP receptor-like protein 以及actin 中的蛋白质进行相似性搜索时,就发现了一些从序列上无法看出相似性但却在结构上相似的蛋白质。

3.2 Xu Ying 的动态规划算法结构的形式化表示:由core 构成的串,core 与core 之间存在相互作用; 求解算法:动态规划方法求最优匹配复杂度:O( ),M,N,TC 与core 的划分有关。

2/TC TC N Mn mn + 在Threading 基本方法的基础上,PROSPECT 引入核(core )的概念。

整条序列分成一段段的core 和loop 区(loop 是指core 之间的部分)。

这样做的前提是生物学中的一个现象:肽链在细胞中很多局部先折叠成比较保守的二级结构(主要是α螺旋和β折叠),形成了一条由二级结构连成的链。

在此基础上,二级结构链折叠成一个整体的三级结构。

core 是一种加了一些限制的二级结构,引入这个概念相当于在预测算法中一定程度上反映了蛋白质折叠的生化过程中经过二级结构这一事实,因此直观上讲应该能提高算法的效率。

如何来衡量序列和结构之间的相似性呢?PROSPECT 采用了能量函数的方法,包含4个部分:i)变异项值,ii)单独残基适合项值,iii)残基对相互作用势能项值,iv)gap 罚分。

当前的PROSPECTS 版本只考虑core 之间的残基对相互作用,并假设gap 仅限于loop 区域内。

在只考虑近距离的残基对相互作用时,PROSPECT 可以有效地找出全局最优的threading 比对。

PROSPECT 允许用户自行添加一些特殊的约束条件,例如:二硫键、活动位点、NOE 1距离约束。

系统将严格地在指定条件下寻找全局最优解。

PROSPECT 与其它的threading 方法相比关键的提高在于:1)它严格地推广了以前只考虑core 内残基比对的threading 方法(在以前的方法内,也没有显式地提出core),使得可以考虑loop 上残基的比对;2)显著提高计算效率;3)允许已知的部分结构信息作为约束条件。

具体的数学描述如下: 能量函数:gap gap pair pair s s mutate mutate total E E E E E ωωωω+++=[J1]1Nuclear Overhauster Effectgap pair s mutate ωωωω,,,为权重,通过对一些训练集进行训练获得。

mutate E ),(21a a :指比对结果中变异位置上氨基酸对应的变异罚分值的和。

PROSPECT 中使用PAM250作为变异罚分值矩阵。

21,a a s E ])2[;;(J t s a :度量了对结果中氨基酸a 排在模板上时,对二级结构的适应程度s,和a 的亲水性在这个位置的适合程度。

pair E ),(21a a :当比对结果中,在空间上的距离比较近的时候,给出了两者之间的相互作用势能,这是一个统计意义上的能量,而不是物理学定义的能量。

),(21a a pair E ),(21a a gap E )1]3[(6.08.10)(−×+=J g gPROSPECT 就是在模板库里找到一个模板,它和待查序列使得达到最小比对结果对应的是模板库里所有模板和待查序列比对结果所能使达到的最小值[J4]。

total E total E total E 即:设T 是模板库,其中的元素t=(q, ss, acc, xyz) q 是序列信息,ss 是二级结构信息, acc 是亲水性信息, xyz 是三级结构坐标信息。

记待查序列为Q 。

记Ali(Q,t)为Q 和t 的所有比对方式的集合,其中的元素a 的能量打分为(a),则PROSPECT 算法就是求解如下最优化问题:total E (a))min arg (min arg ),(total t Q Ali a total Tt E E ∈∈在PROSPECT II 中有如下改进:1、引入z-score 2对预测结果作出评价。

2、由于考虑pairwise 相互作用对比对过程的精确程度影响不大,所以在PROSPECT II 中,先进行不考虑pairwise 相互作用的比对,使用动态规划的算法,以获得更高的效率。

再对这个比对的结果加入pairwise 相互作用,进行折叠识别。

相关主题