第三章 序列比对
H1N1聚合酶序列
>gi|224983683|pdb|3GBN|B Chain B, Crystal Structure Of Fab Cr6261 In Complex With The 1918 H1n1 Influenza Virus Hemagglutinin GLFGAIAGFIEGGWTGMIDGWYGYHHQNEQGSGYAADQKSTQNAIDGITNKVNSVIEKMNTQFTAVG KEFNNLERRIENLNKKVDDGFLDIWTYNAELLVLLENERTLDFHDSNVRNLYEKVKSQLKNNAKEIGN GCFEFYHKCDDACMESVRNGTYDYPKYSEESKLNREEIDGVSGR
3 3 3 3 5 5 7 7 7 7 8 8 8 8 9 9 9 10 10 10 9 9 8
Y
2 2 3 3 4 4 6 6 6 6 7 7 7 7 8 8 9 9 9 9 10 10 8
F
1 1 2 2 4 4 6 6 6 6 7 7 7 7 8 8 8 8 9 9 10 10 9
W
0 0 1 1 3 3 4 4 4 5 5 5 5 5 5 7 7 7 8 8 8 9 10
同源性(homology)
• 如果两个序列有一个共同的进化祖先,那么它们 是同源的。这里不存在同源性的程度问题。这两 条序列之间要么是同源的,要么是不同源的
相似性 (similarity)
• 相似性是指序列比对过程中用来描述检测序列和目标
序列之间相同DNA碱基或氨基酸残基顺序所占比例的 高低。 • 当相似程度高于50%时,比较容易推测检测序列和目 标序列可能是同源序列;而当相似性程度低于20%时,
BLAST结果综述
BLAST结果表述
Bl2Seq双序列比对举例
特殊BLAST
蛋白质序列比对用blastp,DNA序列比对用blastn
例:拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对
粘贴 sequence1
粘贴 sequence2
竖线:一致性 (identities) 缺口(gap):不同之处
P
3 3 4 4 6 6 7 8 8 8 8 8 9 9 9 10 10 10 9 9 9 8 7
V
3 3 4 4 5 5 7 7 7 8 8 8 8 8 9 10 10 10 10 10 9 8 7
L
3 3 3 3 5 5 7 7 7 7 8 8 8 8 9 9 9 10 10 10 9 9 8
I
PAM矩阵与BLOSUM矩阵的选择
第四节 序列比对的算法
双序列比对的三种算法: • 点阵分析法 • 动态规划法:Needleman-Wunsch、Smith-Waterman • 词或K串法(BLAST or FASTA中应用,后面会提到)
全局比对
• 对序列从头到尾进行比较,试图使尽可 能多的字符在同一列中匹配。 • 适用于相似度较高且长度相近的序列 • 如:Needleman-Wunsch算法
选择“进行完全比对”,输出的文件路径自动与原始 的序列文件的路径一致。
Clustal比对结果
星号:完全一致
峰:表示一致程度高 谷:表示一致程度低
Cluster可进行双序列比对
第七节 全基因组比对
1) UCSC genome browser 2) Ensembl genome browser
The end
• 遗传密码矩阵 遗传密码矩阵通过计算一个氨基酸变成另一 个氨基酸所需的密码子变化的数目而得到。 通常为1 或 2,只有Met到Tyr为 3。
• 遗传密码矩阵 GCM矩阵
疏水矩阵
R
R K D E B Z S N Q G X T H A C M P V L I Y F W 10 10 9 9 8 8 6 6 6 5 5 5 5 5 4 3 3 3 3 3 2 1 0
第五节 双序列比对的常用工具
数据库搜索:在分子生物学研究中,对于新测定的 碱基序列或由此翻译得到的氨基酸序列,往往需要 通过数据库搜索,找出具有一定相似性的同源序列, 以推测该未知序列可能属于哪个基因家族,具有哪 些生物学功能。 数据库搜索的基础是序列的相似性比对,即双序列 比对,因此,数据库搜索是双序列比对的特例 BLAST, FASTA等常用的数据库搜索程序均采用局部相 似性比对的方法,具有较快的运行速度
BLAST: basic local alignment search tool
BLAST子程序说明
程序名 Blastp 查询序列 蛋白质 数据库类型 蛋白质 方法 用检测序列蛋白质 搜索蛋白质序列数 据库 用检测序列核酸搜 索核酸序列数据库 将核酸序列按6条链 翻译成蛋白质序列 后搜索蛋白质序列 数据库
Blastn
核酸
核酸
Blastx
核酸
蛋白质
Tblastn
蛋白质
核酸
用检测序列蛋白质 搜索由核酸序列数 据库按6条链翻译成 的蛋白质序列数据 库
将核酸序列按6条链 翻译成蛋白质序列 后搜索由核酸序列 数据库按6条链翻译 成的蛋白质序列数 据库
Tblastx
核酸
核酸
多结构域蛋白 (H1N1) 的BLAST检索
编辑距离(edit distance)
相似性得分
打分规则就是后面的打分矩阵
第三节 打分矩阵(替换记分矩阵)
• 插入和缺失突变:序列比对采用空格(Gap)来处理 • 替换突变:替换计分矩阵即打分矩阵
• (1)核酸打分矩阵设DNA序列所用的字母表为 = { A,C,G,T }
a. 等价矩阵 (unitary matrix) b. BLAST矩阵 c. 转换-颠换矩阵(transition-transversion matrix) (嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)
• 寻找序列中相似度最高的区域,也就是 匹配密度最高的部分。 局部比对 • 适用于在某些部分相似度较高,而其他 部位差异较大的序列。 • 如:Smith-Waterman算法
多序列比对的算法: 1)动态规划算法 2)渐进多序列比对 3)迭代法
多序列比对基于双序列比对,存在两种比对方式:
1)局部比对 (local alignment) 2)整体比对(global alignment)
PAM & BLOSOM
• 这类矩阵列出同源蛋白质在进化过程中氨基酸变 化的可能性(统计学inference)是基于进化原理 的依据,更科学
PAM矩阵( point accepted mutaion)
• 基于氨基酸进化的点换,那么这对氨基酸替换得 分就高
一般选择局部比对和蛋白质序列比对 1)蛋白质功能位点往往是由较短的序列片段组成的,尽 管在序列的其它部位可能有插入、删除等突变,但这些 关键的功能部位的序列往往具有相当大的保守性。而局 部比对往往比整体比对对这些功能区段具有更高的灵敏 度,因此其结果更具生物学意义。 2)蛋白质比对通常比DNA比对具有更丰富的信息 i) DNA序列的许多改变(特别是密码子的第三位)不会 改变对应的氨基酸 ii)许多氨基酸具有相似的生物化学性质(亲疏水,酸 碱等),在打分系统中会认为是相似的(positive), 而不是不同
第六节 多序列比对的常用工具
Cluster家族(ClusterW)
以多个物种的抗坏血酸过氧化物酶的的蛋 白质序列进行比对为例
• 将要比对的多个序列以 Fasta格式保存
• 载入多个序列后,选择输出选项,选择输出格式。或 者在比对完成之后,在“文件”中选择“序列另存 为”,同样可以选择合适的输出格式。
H
5 5 5 5 7 7 9 9 9 9 10 10 10 10 9 9 9 8 8 8 7 7 5
A
5 5 5 5 7 7 9 9 9 9 10 10 10 10 9 9 9 8 8 8 7 7 5
C
4 4 5 5 6 6 8 8 8 8 9 9 9 9 10 10 9 9 9 9 8 8 6
M
3 3 4 4 6 6 8 8 8 8 9 9 9 9 10 10 10 10 9 9 8 8 7
Z
8 8 8 8 10 10 8 8 8 8 7 7 7 7 6 6 6 5 5 5 4 4 3
S
6 6 7 7 8 8 10 10 10 10 9 9 9 9 8 8 7 7 7 7 6 6 4
N
6 6 6 6 8 8 10 10 10 10 9 9 9 9 8 8 8 7 7 7 6 6 4
Q
6 6 6 6 8 8 10 10 10 10 9 9 9 9 8 8 8 7 7 7 6 6 4
表3.1 等价矩阵表 A A 1 T 0 C 0 G 0 A 表3.2 BLAST矩阵 A 5 -4 -4 T -4 -4 -4 C G A -4 -4 表3.3 转移矩阵 A 1 -5 -1 T -5 -1 -5 C G -5 -1
T
C G
0
0 0
1
0 0
0
1 0
0
0 1
T
C G
-4 5
-4 -4
5 -4 -4 5
T
C G
-5 1
-1 -5
1 -5 -5 1
(2)蛋白质打分矩阵
• (i)等价矩阵
1 i j Rij 0 i j
其中Rij代表打分矩阵元素 i、j分别代表字母表第i和第j个字符。
• • • •
(ii) 遗传密码矩阵(genetic code matrix,GCM ) (iii)疏水性矩阵 (hydrophobic matrix) (iv)PAM矩阵(point accepted matrix,PAM) (v) BLOSUM矩阵 (BLOck SUbstitution Matrix,BLOSUM)
K
10 10 9 9 8 8 6 6 6 5 5 5 5 5 4 3 3 3 3 3 2 1 0