当前位置:文档之家› 多序列联配和系统进化树组织构建

多序列联配和系统进化树组织构建

多序列联配和 系统进化树组织构建
序列同源性分析
当我们在研究一个蛋白质或基因时,经常会考虑这样一个很基本 的问题:它与其他蛋白质的同源性关系如何?
序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种的序列中
进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这 是理论分析方法中最关键的一步。
由于同源序列通常保持了相似的结构和功能,因而多序列比对就 显得很有意义。
尽管可以对蛋白质、DNA序列进行多重比对,但是很多数据库 的比对只针对蛋白质家族。
实际应用中常进行氨基酸序列的多序列比对,然后转化成相应的DNA比对
多序列比对的定义
蛋白家族的特征是用存在一组同源序列的多重比对来定义的。 一个多重比对就是一组可以部分或整体对齐的蛋白质或核苷酸序 列(3个或3个以上)。
3. 在检查某次数据库搜索结果时,多重比对形式的结果能更容 易显示保守残基与基序;
4. 如果研究cDNA克隆,按照惯例我们会对相应序列进行测序。 多序列比对可以显示结果中是否有矛盾之处;
5. 分析物种数据可以揭示很多生物学问题(如进化、结构和功 能等方面)。Entrez的PopSet部分包含了核酸和蛋白质的 物种数据集,可以多重比对的形式显示。
多序列比对的意义ห้องสมุดไป่ตู้
用于分析同一基因或蛋白质在不同物种中 的进化
通过分析多个基因或蛋白质序列之间的同 源性确定它们在进化上的关系
分析基因或蛋白质的功能
70 Mya 200 Mya
WGD 14 and 42 Mya
~67.7 Mya 72 Mya
Eo, 棕榈; Ma, 香蕉; Zo, 姜; Cl, 姜黄
Clustal的渐进比对过程
在比对过程中,先对所有的序列进行两两比对并计算 它们相似性分值,然后根据相似性分值将它们分成若干 组,并在每组之间进行比对,计算相似性分值。根据相 似性分值继续分组比对,直到得到最终比对结果。在比 对过程中,相似性程度较高的序列先进行比对而距离较 远的序列添加在后面。
多序列比对常用软件
Phylogenetic analysis
多序列比对的典型应用和实际策略
——什么时候使用和为什么使用多重比对
1. 若所研究的蛋白质或基因与另一组蛋白质有联系,那么这些 蛋白质可以提供可能的功能、结构、进化方面的信息;
2. 大多数蛋白质家族中有远缘的成员。与两两比对相比,多序 列比对能够更敏感地发现同源关系;
自动多序列比对的算法
1. 同步法 将序列两两比对时的二维动态规划矩阵扩展到三维矩 阵。即用矩阵的维数来反映比对的序列数目。这种方 法的计算量很大,对于计算机系统的资源要求比较高, 一般只有在进行少数的较短的序列的比对的时候才会 用到这个方法。
2. 步进法 最常见的就是clustal所采用的方法。 其基本思想就是基于相似序列通常具有进化相关性的这 一假设。
多序列比对的方法
基本上多序列比对可以分为: 1. 手工比对(辅助编辑软件如 Se-Al bioedit,seaview, Genedoc等)
通过辅助软件的不同颜色显示不同残基,靠分析者的观 察来改变比对的状态。
2. 计算机程序自动比对 通过特定的算法(如同步法,渐进法等),由计算机程
序自动搜索最佳的多序列比对状态。
多序列比对的定义
那么如何确定某些氨基酸残基是否对齐了呢? 可根据下面4个特征来判断相应氨基酸残基是否已经对齐: (1)一些高度保守的残基(如参与形成二硫键的半胱氨酸); (2)形成保守基序或结构域,如跨膜结构域和免疫球蛋白结构域 等。 (3)蛋白质二级结构的保守特征,如参与形成α-螺旋、β-折叠和 可变区的残基; (4)显示出一致插入或缺失模式的区域。
度最快(As sequences varied considerably in length, POA (Lee et al. 2002), which treats long indels very accurately, was the ) alignment program of choice. • 5. ProbCons:目前综合性能比较好 • 6. T-Coffee:序列相似性高时最准确 • 7. MAFFT:综合性能比较好
8. 很多基因的调节区含有转录因子结合的共有序列。
9. 功能分歧分析、分子进化分析等。
10.其他应用,如构建profile,打分矩阵等。HMMER就是利用 已知同源序列的多序列比对结果构建profile,然后再利用该 profile去搜索蛋白数据库查找相应蛋白的同源序列。
多序列比对的方法
• 同源性分析中常常要通过多序列比对来找出序列 之间的相互关系,和blast的局部匹配搜索不同, 多序列比对大多都是采用全局比对的算法。这样 对于采用计算机程序的自动多序列比对是一个非 常复杂且耗时的过程,特别是序列数目多,且序 列长的情况下。
相同或相似的氨基酸残基排在同一列上,这些对齐的残基在 进化意义上是同源的:来自共同的祖先。并且还可假定从结构角 度看,这些残基也是同源的:在三维结构中,对齐的残基也倾向 于占据对应的位置。
对于关系很近的一组序列,很容易产生多序列比对,甚至可 以直接观察得到。但当序列间出现一些分歧时,多序列比对过 程中出现的问题就很难解决了,如gap数量和位置的估计就比较 困难。
多序列比对的典型应用和实际策略
——什么时候使用和为什么使用多重比对
6. 当一个物种的基因组被完整测序,数据分析的一个主要部分 是定义所有基于产物所归属的蛋白家族。数据库搜索进行高效 的多重比对,将每一个新蛋白或基因与其他所有家族的蛋白质 进行比较。
7. 利用多序列比对数据构建系统发生树。建树的一个最关键的 步骤就是产生最佳的多序列比对。
1. Clustal W/ Clustal X 2. MUSCLE 3. MAFFT 4. T-Coffee 5. ProbCons 6. POA 7. DIALIGN
性能比较
• 1. ClustalW/X: 最经典、最被广泛接受的工具 • 2. MUSCLE: 目前最流行的多序列比对工具 • 3. DIALIGN: 序列相似性低时最准确 • 4. POA:性能接近T-Coffee和DIALIGN,速
相关主题