当前位置：文档之家› 第三章序列比对共46页

第三章序列比对共46页

多序列的目的：用于比较基因组研究
1）用于描述一组序列（基因家族）之间的相似性关系，以便了解一个基因家族的基本特征，寻找motif，保守区域等。 2）可构建HMM模型，搜索更多的同源序列， Pfam，prints，prosite，interPro等 3）分析结构用于构建进化树
第二节序列比对的基本概念
9
9
8
8
7
P
3
3
4
4
6
6
7
8
8
8
8
8
9
9
9 10 10 10
9
9
9
8
7
V
3
3
4
4
5
5
7
7
7
8
8
8
8
8
9 10 10 10 10 10
9
8
7
L
3
3
3
3
5
5
7
7
7
7
8
8
8
8
9
9
9 10 10 10
9
9
8
I
3
3
3
3
5
5
7
7
7
7
8
8
8
8
9
9
9 10 10 10
9
9
8
Y
2
2
3
3
4
4
6
6
6
6
7
7
7
7
8
8
9
9
9
9 10 10
（BLOck SUbstitution Matrix，BLOSUM）
• 遗传密码矩阵
遗传密码矩阵通过计算一个氨基酸变成另一个氨基酸所需的密码子变化的数目而得到。通常为1 或 2，只有Met到Tyr为 3。
• 遗传密码矩阵 GCM矩阵
疏水矩阵
R
K
D
E
B
Z
S
N
Q
G
X
T
H
A
C
MP
V
L
I
Y
F
W
R 10 10
•利用每个氨基酸出现的频度对j 进行标准化 •取常用对数，得到PAM-1(i, j) •将PAM-1自乘N次，可以得到PAM-n
第一节引言
序列比对的分类：双序列比对，多序列比对
双序列比对的目的：
同源物鉴定，功能预测
基本假设：
1）所有的生物都起源于同一个祖先（物种间序列存在同源关系，同源序列功能往往是相似的） 2）序列不是随机产生，而是在进化上不断发生着演变（同源的序列存在高度相似性） 3）序列的相似性可以判断序列的同源性，进而可以利用同源物功能的相似性来进行推断
1 i j Rij 0 i j
其中Rij代表打分矩阵元素 i、j分别代表字母表第i和第j个字符。
• （ii）遗传密码矩阵（genetic code matrix,GCM ) • （iii）疏水性矩阵（hydrophobic matrix) • （iv）PAM矩阵（point accepted matrix,PAM） • （v） BLOSUM矩阵
• 基于氨基酸进化的点突变模型
如果两种氨基酸替换频繁，说明自然界接受这种替换，那么这对氨基酸替换得分就高
PAM矩阵的制作步骤 •构建序列相似（大于85％）的比对 •计算氨基酸 j 的相对突变率mj（j被其他氨基酸替换的次数） •针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数 •替换次数除以相对突变率（mj）
7
7
6
6
6
5
5
5
4
4
3
S
6
6
7
7
8
8 10 10 10 10
9
9
9
9
8
8
7
7
7
7
6
6
4
N
6
6
6
6
8
8 10 10 10 10
9
9
9
9
8
8
8
7
7
7
6
6
4
Q
6
6
6
6
8
8 10 10 10 10
9
9
9
9
8
8
8
7
7
7
6
6
4
G
ห้องสมุดไป่ตู้
5
5
6
6
8
8 10 10 10 10
9
9
9
9
8
8
8
8
7
7
6
6
5
X
5
5
5
5
7
7
9
9
9
9 10 10 10 10
9
9
8
8
6
6
6
5
5
5
5
5
4
3
3
3
3
3
2
1
0
K 10 10
9
9
8
8
6
6
6
5
5
5
5
5
4
3
3
3
3
3
2
1
0
D
9
9 10 10
8
8
7
6
6
6
5
5
5
5
5
4
4
4
3
3
3
2
1
E
9
9 10 10
8
8
7
6
6
6
5
5
5
5
5
4
4
4
3
3
3
2
1
B
8
8
8
8 10 10
8
8
8
8
7
7
7
7
6
6
6
5
5
5
4
4
3
Z
8
8
8
8 10 10
8
8
8
8
7
7
8
F
1
1
2
2
4
4
6
6
6
6
7
7
7
7
8
8
8
8
9
9 10 10
9
W
0
0
1
1
3
3
4
4
4
5
5
5
5
5
6
7
7
7
8
8
8
9 10
PAM & BLOSOM
• 这类矩阵列出同源蛋白质在进化过程中氨基酸变化的可能性（统计学inference）是基于进化原理的依据，更科学
PAM矩阵（ point accepted mutaion）
a. 等价矩阵 (unitary matrix) b. BLAST矩阵 c. 转换-颠换矩阵（transition-transversion matrix）
（嘌呤：腺嘌呤A，鸟嘌呤G；嘧啶：胞嘧啶C，胸腺嘧啶T）
表3.1 等价矩阵表 AT CG
A10 0 0 T01 0 0 C0 0 1 0 G0 0 0 1
表3.2 BLAST矩阵 AT CG
A 5 -4 -4 -4 T -4 5 -4 -4 C -4 -4 5 -4 G -4 -4 -4 5
表3.3 转移矩阵 AT CG
A 1 -5 -5 -1 T -5 1 -1 -5 C -5 -1 1 -5 G -1 -5 -5 1
（2）蛋白质打分矩阵
• （i）等价矩阵
同源性（homology）
• 如果两个序列有一个共同的进化祖先，那么它们是同源的。这里不存在同源性的程度问题。这两条序列之间要么是同源的，要么是不同源的
相似性（similarity）
• 相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
• 当相似程度高于50%时，比较容易推测检测序列和目标序列可能是同源序列；而当相似性程度低于20%时，就难以确定是否具有同源性。
直系同源和旁系同源
直系同源（orthology）是指不同物种内的同源序列，它们来源于物种形成时的共同祖先基因。
旁系同源（paralogy）是指同一物种中，由于基因的复制而产生的几个同源基因。
直系同源和旁系同源的图示：
相似性分数的计算
1）编辑距离：两条序列对应位置上不同字符的个数 2）相似性得分：两条序列对应位置上相同字符的个数
相似分数越高，序列越相似，编辑距离越小，序列越相似两条序列长度不一致时：空格（Gap）
编辑距离（edit distance)
相似性得分
打分规则就是后面的打分矩阵
第三节打分矩阵（替换记分矩阵）
• 插入和缺失突变：序列比对采用空格（Gap）来处理 • 替换突变：替换计分矩阵即打分矩阵
• （1）核酸打分矩阵设DNA序列所用的字母表为 = { A，C，G，T }
9
9
8
8
8
8
7
7
5
T
5
5
5
5
7
7
9
9
9
9 10 10 10 10
9
9
8
8
8
8
7
7
5
H
5

e商务文档

第三章序列比对共46页

相关文档推荐：