第三章序列比对
第三章 序列比对
第一节 引言
序列比对的分类:双序列比对,多序列比对
双序列比对的目的:
同源物鉴定,功能预测
基本假设:
1)所有的生物都起源于同一个祖先 (物种间序列存在同 源关系,同源序列功能往往是相似的) 2)序列不是随机产生,而是在进化上不断发生着演变 (同源的序列存在高度相似性) 3)序列的相似性可以判断 序列的同源性,进而可以利用 同源物功能的相似性 来进行推断
BLAST结果综述
BLAST结果表述
Bl2Seq双序列比对举例
特殊BLAST
蛋白质序列比对用blastp,DNA序列比对用blastn
例:拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对
粘贴 sequence1
粘贴 sequence2
竖线:一致性 (identities)
缺口(gap):不同之处
>gi|224983683|pdb|3GBN|B Chain B, Crystal Structure Of Fab Cr6261 In Complex With The 1918 H1n1 Influenza Virus Hemagglutinin GLFGAIAGFIEGGWTGMIDGWYGYHHQNEQGSGYAADQKSTQNAIDGITNKVNSVIEKMNTQFTAVG KEFNNLERRIENLNKKVDDGFLDIWTYNAELLVLLENERTLDFHDSNVRNLYEKVKSQLKNNAKEIGN GCFEFYHKCDDACMESVRNGTYDYPKYSEESKLNREEIDGVSGR
直系同源和旁系同源
直系同源(orthology)是指不同物种内的同源序列, 它们来源于物种形成时的共同祖先基因。
旁系同源(paralogy)是指同一物种中,由于基因的 复制而产生的几个同源基因。
直系同源和旁系同源的图示:
相似性分数的计算
1)编辑距离:两条序列对应位置上不同字符的个数 2)相似性得分:两条序列对应位置上相同字符的个数
1 i j Rij 0 i j
其中Rij代表打分矩阵元素 i、j分别代表字母表第i和第j个字符。
• (ii) 遗传密码矩阵(genetic code matrix,GCM ) • (iii)疏水性矩阵 (hydrophobic matrix) • (iv)PAM矩阵(point accepted matrix,PAM) • (v) BLOSUM矩阵
a. 等价矩阵 (unitary matrix) b. BLAST矩阵 c. 转换-颠换矩阵(transition-transversion matrix)
(嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)
表3.1 等价矩阵表 AT CG
A10 0 0 T01 0 0 C0 0 1 0 G0 0 0 1
选择“进行完全比对”,输出的文件路径自动与原始 的序列文件的路径一致。
Clustal比对结果 星号:完全一致
峰:表示一致程度高 谷:表示一致程度低
Cluster可进行双序列比对
第七节 全基因组比对
1) UCSC genome browser 2) Ensembl genome browser
同源性(homology)
• 如果两个序列有一个共同的进化祖先,那么它们 是同源的。这里不存在同源性的程度问题。这两 条序列之间要么是同源的,要么是不同源的
相似性 (similarity)
• 相似性是指序列比对过程中用来描述检测序列和目标 序列之间相同DNA碱基或氨基酸残基顺序所占比例的 高低。
• 当相似程度高于50%时,比较容易推测检测序列和目 标序列可能是同源序列;而当相似性程度低于20%时, 就难以确定是否具有同源性。
•利用每个氨基酸出现的频度对j 进行标准化 •取常用对数,得到PAM-1(i, j) •将PAM-1自乘N次,可以得到PAM-n
PAM矩阵与BLOSUM矩阵的选择
第四节 序列比对的算法
双序列比对的三种算法: • 点阵分析法 • 动态规划法:Needleman-Wunsch、Smith-Waterman • 词或K串法(BLAST or FASTA中应用,后面会提到)
9
9
8
8
8
8
7
7
5
T
5
5
5
5
7
7
9
9
9
9 10 10 10 10
9
9
8
8
8
8
7
7
5
H
5
5
5
5
7
7
9
9
9
9 10 10 10 10
9
9
9
8
8
8
7
7
5
A
5
5
5
5
7
7
9
9
9
9 10 10 10 10
9
9
9
8
8
8
7
7
5
C
4
4
5
5
6
6
8
8
8
8
9
9
9
9 10 10
9
9
9
9
8
8
5
M
3
3
4
4
6
6
8
8
8
8
9
9
9
9 10 10 10 10
The end
7
7
6
6
6
5
5
5
4
4
3
S
6
6
7
7
8
8 10 10 10 10
9
9
9
9
8
8
7
7
7
7
6
6
4
N
6
6
6
6
8
8 10 10 10 10
9
9
9
9
8
8
8
7
7
7
6
6
4
Q
6
6
6
6
8
8 10 10 10 10
9
9
9
9
8
8
8
7
7
7
6
6
4
G
5
5
6
6
8
8 10 10 10 10
9
9
9
9
8
8
8
8
7
7
6
6
5
X
5
5
5
5
7
7
9
9
9
9 10 10 10 10
(BLOck SUbstitution Matrix,BLOSUM)
• 遗传密码矩阵
遗传密码矩阵通过计算一个氨基酸变成另一 个氨基酸所需的密码子变化的数目而得到。 通常为1 或 2,只有Met到Tyr为 3。
• 遗传密码矩阵 GCM矩阵
疏水矩阵
R
K
D
E
B
Z
S
N
Q
G
X
T
H
A
C
MP
V
L
I
Y
F
W
R 10 10
表3.2 BLAST矩阵 AT CG
A 5 -4 -4 -4 T -4 5 -4 -4 C -4 -4 5 -4 G -4 -4 -4 5
表3.3 转移矩阵 AT CG
A 1 -5 -5 -1 T -5 1 -1 -5 C -5 -1 1 -5 G -1 -5 -5 1
(2)蛋白质打分矩阵
• (i)等价矩阵
8
F
1
1
2
2
4
4
6
6
6
6
7
7
7
7
8
8
8
8
9
9 10 10
9
W
0
0
1
1
3
3
4
4
4
5
5
5
5
5
6
7
7
7
8
8
8
9 10
PAM & BLOSOM
• 这类矩阵列出同源蛋白质在进化过程中氨基酸变 化的可能性(统计学inference)是基于进化原理 的依据,更科学
PAM矩阵( point accepted mutaion)
2)蛋白质比对通常比DNA比对具有更丰富的信息
i) DNA序列的许多改变(特别是密码子的第三位)不会 改变对应的氨基酸
ii)许多氨基酸具有相似的生物化学性质(亲疏水,酸 碱等),在打分系统中会认为是相似的(positive), 而不是不同
第五节 双序列比对的常用工具
数据库搜索:在分子生物学研究中,对于新测定的 碱基序列或由此翻译得到的氨基酸序列,往往需要 通过数据库搜索,找出具有一定相似性的同源序列, 以推测该未知序列可能属于哪个基因家族,具有哪 些生物学功能。 数据库搜索的基础是序列的相似性比对,即双序列 比对,因此,数据库搜索是双序列比对的特例 BLAST, FASTA等常用的数据库搜索程序均采用局部相 似性比对的方法,具有较快的运行速度
• 基于氨基酸进化的点突变模型
如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得 分就高
PAM矩阵的制作步骤 •构建序列相似(大于85%)的比对 •计算氨基酸 j 的相对突变率mj(j被其他氨基酸替换的次数) •针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数 •替换次数除以相对突变率(mj)
9
9
8
8
7