第三章 序列比对
英文名
Glycine Alanine
缩写 简称
Gly Ala G A
中文名
苏氨酸 半胱氨酸
英文名
Threonine Cystine
缩写 简称
Thr Cys T C
缬氨酸
亮氨酸 异亮氨酸 脯氨酸 苯丙氨酸 酪氨酸 色氨酸
Valine
Leucine Isoleucine Proline Phenylalanine Tyrosine Tryptophan
并系同源(paralogy)基因是指同一基因组(或同系物种的 基因组)中,由于始祖基因的加倍而横向(horizontal)产生 的几个同源基因
直系与并系的共性是同源,都源于各自的始祖基因。区别在 于:
在进化起源上,直系同源是强调在不同基因组中的垂直传递,并系 同源则是在同一基因组中的横向加倍;
PAM矩阵的制作步骤:
构建序列相似(99%)的比对 计算氨基酸 j 的相对突变率mj(j被其它氨基酸替换的 次数) 针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数 替换次数除以相对突变率(mj) 利用每个氨基酸出现的频度对j 进行标准化 取常用对数,得到PAM-1(i, j) 将PAM-1自乘N次,可以得到PAM-N
3 0 1 0 0 0 0 -1 -1 -1 0 -1 0 -2 0 -3 -3 -5 T
6 1 -1 -1 -1 -1 0 0 0 -1 -2 -2 -3 -1 -5 -5 -6 P 2 1 0 0 0 0 -1 -2 -1 -1 -1 -2 0 -4 -3 -6 A 5 0 1 0 -1 -2 -3 -2 -3 -3 -4 -1 -5 -7 -7 G 2 2 1 1 2 0 1 -2 -2 -3 -2 -2 -2 -4 N
一个嘌呤基与一个嘧啶基通过 氢键联结成一个碱基对 DNA分子的方向性
5'→3'
DNA的双螺旋结构
碱基对之间的互补能力
DNA的复制
在DNA解旋酶的作用下两条 链分离开,分别作为一个模板, 在聚合酶的作用下合成一条新 链
突变(mutation)
进化过程中由于不正确的复制,使DNA内容 发生局部的改变。 突变的种类主要有以下三种:
相似性本身的含义,并不要求与进化起源是否同一,与亲缘关系 的远近、甚至与结构与功能有什么联系
同源性(homology):如果两序列有一个共同的进化祖先, 那么称其为同源的。当两序列同源时,它们的氨基酸/核 苷酸序列通常有显著的一致性(identity)。
Biblioteka 当相似程度高于50%时,易推测检测序列和目标序列可能是同源 序列;而当相似性程度低于20%时,就难以确定二者是否具有同 源性 两序列或者同源,或者不同源,所谓“具有50%同源性”,或 “这些序列高度同源”等说法,都是不确切的
PAM 250 对数概率矩阵
C S T P A G N D E Q H R K M I L V F Y W
12 0 -2 -3 -2 -3 -4 -5 -5 -5 -3 -4 -5 -5 -2 -6 -2 -4 0 -8 C
2 1 1 1 1 1 0 0 -1 -1 0 0 -2 -1 -3 -1 -3 -3 -2 S
差异生物个体可以是同种但含有不同的遗传信息的生物个体,也可以是远缘 的,甚至没有亲缘关系的生物个体。单个细胞内部细胞器主要指的是叶绿体、 线粒体及细胞核
水平基因转移是相对于垂直基因转移(亲代传递给子代)而提出的,它打破 了亲缘关系的界限,使基因流动变得更为复杂
人类基因组测序工作的完成证实了水平基因转移的普遍性和远缘性。在人类 基因组上已发现了223个来源于细菌的基因,这些基因无疑是通过水平基因 转移机制获得的
基酸突变情况而构建 最有名的氨基酸替换矩阵是PAM,于1979年完成
PAM矩阵(Point Accepted Mutation)
是第一个被广泛使用的得分矩阵,建立在进化的可接受 点突变基础上,通过统计相似序列比对中各种氨基酸替 换发生率得到 先收集序列一致性(sequence identity)达到 99%的序列 来计算矩阵,所得的矩阵称为PAM 1 矩阵(即1% 发生 了突变),再由该矩阵推到其它 PAM 矩阵 PAM-1自乘n次,得PAM-n 该矩阵缺点:一旦 PAM 1 矩阵有小的误差,那么自乘 250 次后所得的 PAM 250 矩阵误差将会变得非常大
Val
Leu Ile Pro Phe Tyr Trp
V
L I P F Y W
蛋氨酸
天冬酰胺 谷氨酰胺 天冬氨酸 谷氨酸 赖氨酸 精氨酸
Methionine
Asparagine Glutarnine Asparticacid Glutamicacid Lysine Arginine
Met
Asn Gln Asp Glu Lys Arg
用来评估比对的计分系统 用来找到最佳比对的运算法则 不同的比对方式
生物序列之间的关系
序列的相似性度量
编辑距离(distance)
两个序列间的距离:从一个序列变化到另一个序列 所需的变化的量 变化包括:插入(insert)、删除(delete)、替 换(substitution) 序列间的距离越大,差异就越大 如:“AATTGGCG”与“AATCGGC”可以看作替换 第四个字母,删除最后一个字母,故两序列距离为 2
体内20种氨基酸按理化性质可分为
非极性、疏水性氨基酸:甘氨酸、丙氨酸、缬氨 酸、亮氨酸、异亮氨酸、苯丙氨酸和脯氨酸 极性、中性氨基酸:色氨酸、丝氨酸、酪氨酸、 半胱氨酸、蛋氨酸、天冬酰胺、谷氨酰胺和苏氨 酸 酸性氨基酸:天冬氨酸和谷氨酸 碱性氨基酸:赖氨酸、精氨酸和组氨酸
中文名
甘氨酸 丙氨酸
在功能上,直系同源要求功能高度相似,而并系同源在定义上对功 能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一 定程度的相似),甚至于没有功能(如基因家族中的假基因); 并系同源中,由于复制所得的基因经历了各自的进化途径,从而使新 物种通过变异而产生,进化上可能获得另一功能。
异同源(xenolog);指由一个水平基因转移事件而得到的同源 序列 水平基因转移(horizontal gene transfer, HGT) ,指在差异生 物个体间,或单个细胞内部细胞器间所进行的遗传物质交流
M
N Q D E K R
丝氨酸
Serine
Ser
S
组氨酸
Histidine
His
H
蛋白质计分矩阵种类
等价矩阵
最简单的计分矩阵,所有匹配和错匹均得相同的分 该矩阵未考虑蛋白质结构和进化,实际中很少使用 也称最少突变矩阵,通过计算氨基酸密码子间进行 突变所需的碱基变化数目得到,矩阵中对角线值均 为0,最大值为3
大规模DNA测序中序列片段的组装与拼接
序列搜索
保守序列搜索
序列比对种类
局部比对(Local Alignment):寻找序列中相似度最高的子序列 区域 全局比对(Global Alignment):将两条完整序列从头到尾进行比 较,试图使尽可能多的字符出现在同一列
序列比对中涉及的关键问题
4 3 2 1 -1 0 -3 -2 -4 -2 -6 -4 -7 D
如果两个序列之间相似性较高,则可以推测二
者在进化上可能具有相同的祖先,即二者可能
同源
序列比对可以发现隐含在生物序列中的功能、
结构以及进化方面的信息
相似性与同源性
相似性(Similarity):指序列比对中用来描述检测序列和目 标序列间具有相同DNA碱基/氨基酸残基顺序所占比例的 高低
同源有两种不同的情况即垂直方向(orthology)与水 平方向(paralogy)
直系同源(orthology):是比较基因组学中最重要的定义
在进化上起源于一个始祖基因并垂直传递(verticaldescent)的同 源基因; 分布于两种或两种以上物种的基因组; 功能高度保守乃至于近乎相同,甚至在近缘物种可以相互替换; 结构相似; 组织特异性与亚细胞分布相似
遗传密码矩阵
疏水矩阵
依据氨基酸疏水特性构造 疏水性”是每种氨基酸所固有的特性,即氨基酸远离 周围水分子,将自己包埋进蛋白质核心的相对趋势 蛋白质结构的特征是疏水/亲水间的平衡,其结构的 稳定在很大程度上有赖于分子内的疏水作用 疏水矩阵中,得分越高的替换越保守
氨基酸替换矩阵
根据各种氨基酸替换的先验概率以及在进化过程中氨
第三章 序列比对
回顾 :DNA
DNA的分子组成
核甘(nucleotides)
磷酸根(phosphate) 糖(sugar) 四种碱基
腺嘌呤(Adenine) 鸟嘌呤(Guanine) 胞嘧啶(Cytosine) 胸腺嘧啶(Thymine)
碱基的配对原则
A(腺嘌呤)—T(胸腺嘧啶) G(鸟嘌呤)—C (胞嘧啶)
序列比对:是在两条或多条序列中寻找按照相 同次序排布的一连串的单个字符或字符模块的 过程 序列比对是生物信息学中最基本、最重要的操 作,通过序列比对可发现生物序列中的功能、 结构和进化方面的信息 序列比对的特点