当前位置:文档之家› 5、生物信息学序列比对

5、生物信息学序列比对


PAM-1
Protein substitution matrices 蛋白替换矩阵
BLOSUM250 matrix:
• Positive scores on diagonal (identities)
• Similar residues get higher scores
• Dissimilar residues get smaller (negative) scores
第一位点
A A
A
A -
得分 +1 -1 -1
剩余序列
CTCG CAGTAG
ACTCG CAGTAG
CTCG ACAGTAG
Dynamic Programming 动态规划法求解序列比对
• 序列1: ACTCG • 序列2: ACAGTAG
gap A
C
T
C
G
gap 0
-1
-2
-3
-4
-5
A
-1
1
0
-1
What’s Alignment
3
The Need of Sequence Alignment
4
Homology study 同源研究
EST analysis 表达序列标签分析
Genomic study 组学研究
Phylogenetic study 系统进化研究
Pattern (motif) identification
length(x) => M Length(y) => N for i = 1-> M
for j = 1 -> N if xi = yj D(i, j) = 1 else D(i, j) = 0
O(MN)
Dynamic Programming 动态规划法求解序列比对
• 问题分解 • 序列1: ACTCG • 序列2: ACAGTAG
各种不同的替换计分矩阵
• 4种碱基,20种氨基酸 • 各种碱基或氨基酸的理化性质不同 • 各种突变发生的概率不同
• DNA记分矩阵:等价矩阵、转换-颠换矩阵、BLAST矩阵
• 蛋白质记分矩阵:等价矩阵、遗传密码矩阵、疏水性矩阵、
• PAM矩阵 • BLOSUM矩阵
来源于对自然界氨基酸替换概率的统计
Separate penalties for gap opening and gap elongation
起始罚分
长度罚分
KLAASVILSDAL KLAA---- SDAL
-10 + 3 x (-1)=-13
利用点矩阵进行序列比对
Dotplots Algorithm
•Dotplots two sequecne (x, y)
-2
-3
C
-2
0
2
1
0
-1
A
-3
-1
1
2
1
0
G
-4
-2
0
1
2
2
T
-5
-3
-1
1
1
2
A
-6
-4
-2
0
1
1
G -7 -5 -3 -1
0
2
多重序列比对 Multiple sequence alignment
• 动态规划法:
• n条序列 n维矩阵
• ClustalW、ClustalX和ClustalO
多序列比对的应用
• 最简单的打分规则
• 匹配:+5分 • 不匹配:0分
• 举例:
• 肽链A:K A W S A D V • 肽链B:K D W S A E V • 5+0+5+5+5+0+5=25
• 对于核酸序列仍然适用
替换和突变
突变:DNA的复制和修复过程中出现错误而导致的核苷酸序列的改变
替换:经过自然选择过滤后保留下来的突变
时刻0
位点
C
时刻1 T
时刻2 C
Jukes-Cantor模型:K=-3/4ln[1-(4/3(p))] Kimura双参数模型:K=1/2ln[1/(1-2P-Q)]+1/4ln[1/(1-2Q)] 转换和颠换 多参数模型:误差太大
Conserved Substitution 氨基酸的保守替换
Substitution of S/T or E/D should result in scores that are only moderately lower than identities. A.A. have similar physicochemical properties can be replaced each other such as Serine (S) & Threonine (T), Aspartic acid (D) & Glutamic acid (E)
怎样选用PAM-n和BLOSUM-n矩阵
• PAM矩阵:n越小表示氨基酸变异的可能性越小 • BLOSUM矩阵:n越小表示氨基酸相似的可能性越小
BLOSUM 80
PAM 1 序列相似度高
BLOSUM 62 PAM 120
BLOSUM 45
PAM 250 序列相似度低
什么是Gap
• 空格 (gap)
Dotplots Needleman/Wunsch/Sellers Smith/Waterman Gotoh Spliced and more…
What’s Alignment
• 同源序列、相似序列和相同序列
• 相似序列的定量描述
Seq-a: ATC ACCTT GGTAGCTA Seq-b: TAC ACCTT CGTCGCCA
打分规则1(相同记为1,不同记为0) 1 + 5 打分规则2(相同记为0.8,不同记为0.2) 1.2 + 4
打分规则3
ATCG
-3 + 25
A 5 -4 -4 -4
T -4 5 -4 -4
C -4 -4 5 -4
G -4 -4 -4 5
+5 + 4.6
= 11 = 9.8
+ 13 = 35
Simple Score Scheme
Sequence Analysis (II)
Sequence Alignment
Galacid-Secret of Life
NucleicAcids A T(U) G C
Proteins 20 amino acids
Salvador Dali’s Galacidalacidesoxyribonucleicacid, Homage to Watson and Crick, 1963. Note the figures in quartets to the right – signifying the tetranucleotide hypothesis that DNA was composed of a simple repeating unit of A, C, G and T and was therefore too simple to encode genetic information – an idea that was obsolete even by the time Dali painted Galacid.
• 访问Clustal: Multiple Sequence Alignment网站 • 下载ClustalX和ClustalO,比对4条序列
Homework
• 下载HPV 16/18/6/11/31 L1蛋白的序列各一条,保存为一个FASTA文件
• 用ClustalX比对这一组序列 • 用ClustalO比对这一组序列
Seq-a: ATACCTTGGTAGCTA Seq-b: ATGACCTTGGTAGCTA
Seq-a: AT-ACCTTGGTAGCTA Seq-b: ATGACCTTGGTAGCTA
突变位点上的替换、插入和删除引起了序列的差异
Gap Penalty 空位罚分
Multiple insertions/deletions may be one evolutionary event
• 用E-utility工具以Hepatitis B virus complete genome为关键字搜索并下载 所有的HBV序列为一个FASTA文件,尝试比对这一组序列,比较ClustalX与 CLustalO的计算效率
同义和异义替换:
甘氨酸:GGG, GGA, GGU, GGC
编码基因的序列发生同义替换的概率差不多是异义替换的3倍
人/鼠 生长激素 载脂蛋白E 组蛋白(H2A)
同义替换率 0.321 0.199 0.967
异义替换率 0.100 0.148 0.05目(K)表示 如果序列之间的差异很大,K有可能被低估
• 获得共性序列(Consensus sequence) • 序列测序 • 突变分析 • 种系分析 • 保守区段分析 • 基因和蛋白质功能分析 • ……
Alignment exercise
• 获取HBV A、B、C、D亚型参考序列(HBV genotype A/B/C/D)
• 访问EMBOSS和Mobyle@Pasteur,利用比对工具比对四条序 列
模式识别
Protein Family Classification 家族分类
Protein-Protein Interaction 蛋白相互作用
Gene Identification 基因识别
More…
Principle of Sequence Alignment 序列比对原理
Dotplots Pairwise alignment Local alignment Global alignment Multiple alignment
相关主题