当前位置:文档之家› 上海交大 中文翻译 生物化学课本:第6章 生物信息学和进化的研究方法

上海交大 中文翻译 生物化学课本:第6章 生物信息学和进化的研究方法

第六章生物信息学和进化的研究方法
蛋白质序列清楚地反映出生物的进化关系。

Jane Goodall和一只黑猩猩互动提示人类与黑猩猩亲缘关系近。

血红蛋白的氨基酸序列也证明人类与黑猩猩的亲缘关系。

在血红蛋白153个氨基酸残基中,人血红蛋白(红色)与黑猩猩血红蛋白(蓝色)只有一个氨基酸残基不同。

[左边, Kennan Ward/Corbis.]
如同人类家族的成员一样,分子家族的成员有一些共同的特征。

比较蛋白质的三维结构(即与蛋白功能关系最密切的参数),我们很容易鉴定蛋白家族成员。

我们在蛋白质折叠章节介绍过的牛核酸酶,其三维结构与人核酸酶的三维结构颇为类似(图6.1)。

虽然这种类
1
似性在意料之中(因为这两个蛋白质的功能是一样的),但是有些情况下这种比较却获得了我们意料之外的结果。

例如血管生成素(angiogenin)是能够刺激血管生成的蛋白质。

但是血管生成素的三维结构与核酸酶三维结构非常相似,说明血管生成素和核酸酶属于同一蛋白家族(图6.2)。

因此它们肯定来自同一祖先分子。

图6.1 牛和人核酸酶结构。

功能类似性的蛋白质常常具有结构类似性。

[Drawn from 8RAT.pdb. and 2RNF.pdb]
图6.2 血管生成素的结构。

该蛋白质能促进血管生长,具有与核酸酶非常相似的三维结构。

2
遗憾的是,知道三维结构的蛋白质数量有限。

我们知道很多蛋白质的编码基因序列或氨基酸序列(得益于DNA克隆和DNA序列测定)。

在蛋白质氨基酸序列水平就能观测到蛋白质的进化关系。

例如牛核糖核酸酶和血管生成素的氨基酸序列有35%的氨基酸残基是一致的。

那么这种相似性水平是否足以保证蛋白质的进化关系?如果不够,需要多高的相似性才能说明蛋白质有进化关系?本章介绍氨基酸序列比较的方法和推测蛋白质进化关联的方法。

序列比较已经成为现代生物化学研究的最有力工具之一。

最新鉴定的新序列与数据库比较,确定与该序列相关的分子。

利用这些信息,能够研究具有这种新近测序分子功能和机制。

如果三维结构也清楚,我们能比较三维结构、证实序列比较的结论,还能揭示那些序列比较没有发现的成员。

考察现有蛋白序列的脚印,生化学家成了分子考古学家,能了解分子进化史所发生的事件。

序列比较能够确定进化途径、估计特定进化事件发生的时间。

利用这些信息能够构建特定蛋白质或核酸从古生菌和细菌到真核生物(包括人类)的进化树。

也可以用实验方法研究分子进化。

有些化石的DNA分子也可以进行PCR扩增和测序,直接观察古代的分子序列。

此外科研人员也可以进行一些核酸复制实验观察实验室的分子进化。

这些研究的结果能揭示更多的分子进化机制。

6.1 同源物来自同一祖先
生物化学进化的研究主要是确定蛋白质、其它生物分子、以及生物化学途径如何随着时间发生的变化。

来自同一祖先的两个物体就是同源关系。

同源(homologus)分子或同源物(homologs)可以分为两类(图6.3)。

侧向同源物(paralogs)指同种生物的同源物。

直向同源物(orthologs)指不同物种间具有非常相似甚至一致功能的同源物。

了解分子间的同
3
源性能够揭示分子的进化历史和它们的生物功能。

如果新近测序的蛋白质与功能已知蛋白具有同源性,那么这个新近测序的蛋白质也可能具有这样的生物功能。

如何确定人类两种蛋白质具有侧向同源?如何确定人类蛋白和酵母蛋白具有直向同源?我们在6.2节要介绍这方面的内容。

核酸序列或氨基酸序列之间有显著的类似性常常表明这些物质之间有同源性。

当然,三维结构比较更能揭示生物分子的同源性。

图6.3 两类同源蛋白。

不同生物体内执行类似甚至相同功能蛋白质属于垂直同源物(ortholog)。

而同一物种内执行不同功能的相似蛋白叫侧向同源蛋白(paralog)。

6.2 序列比对的统计分析检测同源性(homology)
两个分子之间有显著的序列类似性提示这两个分子可能有共同的进化祖先,因此有同样的三维结构、生物功能和作用机制。

虽然核酸序列和蛋白质序列都可用来进行序列比对,但
4
是蛋白质氨基酸序列比对更好。

最显著的原因是构建蛋白质的单体有20种,而构建核酸的单体只有4种。

为了解释蛋白质比较的方法,我们先考察球蛋白。

肌红蛋白是肌肉组织的氧结合蛋白,而血红蛋白是血液的载氧蛋白(第7章)。

这两种蛋白质都有血红素辅基(一种有铁的有机分子,能结合氧)。

人血红蛋白有4个多肽链,每个多肽链结合一个血红素辅基。

这四个多肽链分别是两个完全一样的链和两个完全一致的链。

此处我们仅考察链。

研究人血红蛋白链的氨基酸序列与人肌红蛋白氨基酸序列之间的类似性(图6.4)。

为了确定这两个序列之间的类似性,建立了序列比对方法。

图6.4 人血红蛋白链和人肌球蛋白进行序列比对。

链血红蛋白有141个氨基酸,肌红蛋白有153个氨基酸。

如何比对两个序列?最简单的方法是将一个蛋白质的氨基酸序列与另一个蛋白质的氨基酸序列进行所有可能的比对,记录各种比对所获得的一致残基的数目。

这种比对不难,只需每次将一个序列沿着另一个序列滑行一位,计算匹配氨基酸残基的数量(图6.5)。

5
图6.5 人血红蛋白链和人肌球蛋白进行序列比对。

(A)一条序列沿另一条序列滑行,进行序列比对(每次滑行一个氨基酸位点),统计两条多肽链中氨基酸一致的位点数量。

(B) 匹配数量最多的比对模式(上),将一致氨基酸位点数量(纵轴)与滑行位点(横轴)作图(下)。

链和肌红蛋白最佳比对只有23个位点是一致的,分散在多肽链中央区域。

但是,相近的比对有22个一致位点,而且这些位点集中于蛋白质的N-端。

如果在比对过程中引入缺口,就能将上述两种比对的大多数一致位点都囊括进来(图6.6)。

在比对过程中需要添加这种缺口以补偿基因进化过程中出现的插入或缺失。

6
图6.6 添加缺口的比对。

人血红蛋白链和肌红蛋白在加入缺口后的序列比对。

但是用缺口的办法增加了序列比对的复杂性,因为序列比对时所选择的缺口大小有人为因素。

现在已建立了计算机自动进行序列比对时添加缺口的方案。

这种方法采用打分系统评估各种比对方案,利用缺口惩罚来排除序列比对时出现的不合理缺口。

例如一致位点加10分,一个缺口(无论缺口大小)扣25分。

图6.6的比对方案得355分(38个一致位点和一个缺口,38 x 10 - 1 x 25 = 355)。

这样,这两个蛋白质之间氨基酸一致性就达到25.9% (两个蛋白质平均长度是147氨基酸残基,有38个一致位点)。

下面的问题是,这样的一致性是否属于明显类似?
用重排的方法估计比对的统计学意义
图6.5展示的序列类似性似乎是显著的,但是不能排除偶然出现了这些一致性的可能。

如何评估这些偶然性?采用的策略是将某一蛋白质的氨基酸序列进行随机重排(shuffling),然后将重排所得蛋白序列与目标序列比对(图6.7)。

重复这一过程,构建出各种重排蛋白的得分。

7
采用这种策略,肌红蛋白和血红蛋白链之间权威比对就凸现出来(图6.8)。

权威比对的数值远高于随机重排蛋白的平均值。

随机重排1020次,才出现一次这种比对值。

因此我们可以轻松地认为这两个序列确实是类似的。

最简单的解释是这两种蛋白序列来自同一祖先,属于同源物。

图6.7 重排产生的一个新序列。

图6.8 比对计分的统计比较。

计算重排序列比对的计分值,产生该计分值出现的次数。

用出现次数对比对计分值作图。

该图表示随机重排序列比对的积分分布。

链和肌红蛋白序列比对计分(红色)远远高于随机重排的计分,强烈提示这两个蛋白序列相似性明显。

8。

相关主题