序列相似性的概念
序列相似性的概念
序列排比具有上述强大功能的原因是,人 们发现,假如两个生物大分子的序列足够相 似,几乎毫无疑问(当然不是绝对) 似,几乎毫无疑问(当然不是绝对)它们具有相 似的生物学功能,并且可能是同源的。
序列相似性的概念
在序列中编码功能的句法和语义学中具有两个 重要的特征: 功能被编码于序列之中,即序列提供了句法。 编码具有一定的丰余度(redundancy),即序列中一 编码具有一定的丰余度(redundancy),即序列中一 些位点的改变可以保持功能不变,这就使编码具有 强劲的语义学。
序列比较是如何进行的?
匹配率(identity): 匹配率(identity): 两个蛋白质有一定数量的氨基酸在排比的位点 上是相同的,即如果38个氨基酸的蛋白质中 15个位点相同,我们说它们39.4%相同 (39.4%)
MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG -------------PRNGTIKIYENPARTFTRPYSAKNITIYKEND
序列相似性的概念
序列排比(aligment)是序列分析的基础,其他 序列排比(aligment)是序列分析的基础,其他 一切都建立在序列排比的基础上。 ACGCTAGCGCTAGCTGCTAGCTAG ACGCTAGCGCTAGCTGCTAGCTAG ACGCTAGCGCAAGCTGCTAGCTAG ______________ __________________
序列比较是如何进行的?
-------打分矩阵( -------打分矩阵(Scoring Matrices) )
因为所有的点突变都产生于核苷酸的变化, 因此排比中氨基酸对的相关性是随机的还是 遗传的应处决于由一个密码子转变为另一密 码子所必需的点突变的数量。由这一模型而 产生的打分矩阵将根据导致密码子改变所需 改变核苷酸的数量来定义两个氨基酸之间的 距离,此为遗传密码子打分矩阵(genetic code matrix)。与匹配打分模型相比,它改进 了排比中的灵敏度和专一性。
序列比较是如何进行的?
相似性(similarity): 相似性(similarity): 通常在某些位点上有一些氨基酸被另外一些化 学物理特性相近的氨基酸所代替,这种突变 可称为保守突变。将保守突变的因素考虑在 内,就可以定义各种打分方案( 内,就可以定义各种打分方案(scoring schemes)对两序列的相似程度打分,所得分 ) 值即代表其相似的程度。
遗传密码子打分矩阵(A genetic code matrix) A B C 3.0 2.0 1.0 3.0 1.0 3.0 D 2.0 3.0 1.0 3.0 E 2.0 2.0 0.0 2.0 3.0 F 1.0 1.0 2.0 1.0 0.0 3.0 G 2.0 2.0 2.0 2.0 2.0 1.0 3.0 H 1.0 2.0 1.0 2.0 1.0 1.0 1.0 3.0 I 1.0 2.0 1.0 1.0 1.0 2.0 1.0 1.0 3.0 K 1.0 2.0 0.0 1.0 2.0 0.0 1.0 1.0 2.0 3.0 L 1.0 1.0 1.0 1.0 1.0 2.0 1.0 2.0 2.0 1.0 3.0 M N P Q R S T V W Y Z . 1.0 1.0 2.0 1.0 1.0 2.0 2.0 2.0 1.0 1.0 2.0 A 1.0 3.0 1.0 2.0 1.0 2.0 2.0 2.0 0.0 2.0 2.0 B 0.0 1.0 1.0 0.0 2.0 2.0 1.0 1.0 2.0 2.0 0.0 C 0.0 2.0 1.0 1.0 1.0 1.0 1.0 2.0 0.0 2.0 2.0 D 1.0 1.0 1.0 2.0 1.0 1.0 1.0 2.0 1.0 1.0 3.0 E 1.0 1.0 1.0 0.0 1.0 2.0 1.0 2.0 1.0 2.0 0.0 F 1.0 1.0 1.0 1.0 2.0 2.0 1.0 2.0 2.0 1.0 2.0 G 0.0 2.0 2.0 2.0 2.0 1.0 1.0 1.0 0.0 2.0 2.0 H 2.0 2.0 1.0 1.0 2.0 2.0 2.0 2.0 0.0 1.0 1.0 I 2.0 2.0 1.0 2.0 2.0 1.0 2.0 1.0 1.0 1.0 2.0 K 2.0 1.0 2.0 2.0 2.0 2.0 1.0 2.0 2.0 1.0 2.0 L 3.0 1.0 1.0 1.0 2.0 1.0 2.0 2.0 1.0 0.0 1.0 M 3.0 1.0 1.0 1.0 2.0 2.0 1.0 0.0 2.0 2.0 N 3.0 2.0 2.0 2.0 2.0 1.0 1.0 1.0 2.0 P 3.0 2.0 1.0 1.0 1.0 1.0 1.0 3.0 Q 3.0 2.0 2.0 1.0 2.0 1.0 2.0 R 3.0 2.0 1.0 2.0 2.0 1.0 S 3.0 1.0 1.0 1.0 1.0 T 3.0 1.0 1.0 2.0 V 3.0 1.0 1.0 W 3.0 1.0 Y 3.0 Z
序列比较是如Байду номын сангаас进行的?
同源性(homology): 同源性(homology): 只有当两个蛋白质在进化关系上具有共同的祖 先时,才可称它们为同源的。
序列比较是如何进行的?
要分析两个序列是否相似,必须首先作排比分析(alignment)。 如何作排比分析? 最基本的条件是对序列的相似性做定量分析,然后将序列进行排 比,在排比中要用到 gaps, insertions, substitutions。 对gaps和insertions打分可用较简单的扣分方案,而substitutions 的打分则比较复杂,必须先构建出一个计算机的算法矩阵 (Matrix),再根据此方案对序列中氨基酸残基之间的差异或相似 进行打分。
序列相似性的概念
在对一个新测定的DNA序列进行分析时, 在对一个新测定的DNA序列进行分析时, 比如分析的结果是:这个序列与某种细菌的 ATPase相似。这是否意味着这个未知序列就 ATPase相似。这是否意味着这个未知序列就 是一个ATPase?答案是不能确定的。所以就 一个ATPase?答案是不能确定的。所以就 必须完全理解在序列水平上“相似性”或 “同源性”是如何定义的。
序列比较是如何进行的?
-------打分矩阵( -------打分矩阵(Scoring Matrices) )
其它相似性打分矩阵可以根据氨基酸的任何特 征构建出来,只要这些特征能定量表示出来, 如亲水性和疏水性、电荷、分子体积等的分 隔系数。遗憾的是,这些生物物理量只能部 分反映氨基酸之间的关系,并不能百分之百 的推论出相关蛋白质氨基酸的保守性。
Dayhoff突变数据打分矩阵是如何构建的?
----打分矩阵的原理(Principles ----打分矩阵的原理(Principles of Scoring Matrices) )
因为我们要做的是能分辨出显著进化关系的打 分矩阵,因此,第一步必须是定义一个进化 模型:蛋白质通过一系列独立的点突变而进 化,这些突变被种群接受,并可见于后代的 基因组中。
Dayhoff突变数据打分矩阵是如何构建的?
----打分矩阵的原理(Principles ----打分矩阵的原理(Principles of Scoring Matrices) )
序列比较是如何进行的?
要对两个序列进行排比,必须首先打出其相似 性的定量分值,于是需要一个打分矩阵。 打分矩阵( 打分矩阵(Scoring Matrices): ): 给不同的氨基酸配对定义的一系列相似性分值。而一 个突变打分方案(mutation data matrix)则是根据排 比时序列中点突变的情况设计出的打分方案。对氨 基酸配对相似性的尺度衡量,例如苯丙氨酸和异亮 氨酸相似性的定量标准,可以以多种方式来定义。
序列比较是如何进行的?
打分矩阵( 打分矩阵(Scoring Matrices) ) 对氨基酸配对相似性的尺度衡量,例如苯丙氨酸和异 亮氨酸相似性的定量标准,可以以多种方式来定义。 因此,设计一个打分矩阵,首先必须确定用什么算 法模型。在序列排比分析中,打分矩阵只是某个算 法模型的量化表现,排比的结果只在该算法模型所 划定的范围内有意义。
What is the cost of matching a 'G' with a 'L' ? What does this score represent?
序列比较是如何进行的?
-------打分矩阵( -------打分矩阵(Scoring Matrices) ) Dayhoff打分矩阵(The Dayhoff Matrix):一个根据经 验的氨基酸相似性打分矩阵。 这个矩阵假设,一旦确定了两个序列的进化关系,其 交换的氨基酸将是相似的。Dayhoff及其同事在70 年代初期作的一个蛋白质序列和结构图表集中,通 过用一些哺乳动物蛋白质序列的排比发展出了一个 精确的突变数据打分方案(mutation data matrix)。 其方案对特定蛋白质序列排比中,序列的差异是随 机发生的还是反映同一个共同祖先序列的机率作了 定量。
Dayhoff突变数据打分矩阵是如何构建的?
----打分矩阵的原理(Principles ----打分矩阵的原理(Principles of Scoring Matrices) )
两个序列的进化距离就是从一个序列进化到 另一个序列的点突变的数量(也就是突变的最 小次数)。 以下因素会导致实际的进化距离与观察到的 差异程度不一致:
Dayhoff突变数据打分矩阵是如何构建的?
----打分矩阵的原理(Principles ----打分矩阵的原理(Principles of Scoring Matrices) )
首先,有可能有些核苷酸残基已经突变,但后来又 回复突变(如 A=>T=>A),把突变的事件隐藏了起来。 这种现象在评价生物学时钟时和在研究每单位时间 有多少突变事件被固定下来这个问题时显得特别重 要,而在讨论突变打分矩阵时我们完全不必理会它。 一些特殊的氨基酸残基可能已经突变了多次(如 G=>L=>I ) 一个氨基酸残基可以突变“走”然后又突变回来(如 G=>L=>G ) DNA点突变的数量很可能大于差异氨基酸的量。这 个因素也需要考虑