序列比对
16 /108
Pairwise sequence alignment allows us to look back billions of years ago (BYA)
Origin of Earliest life fossils Origin of Eukaryote/ Fungi/animal eukaryotes archaea Plant/animal insects
21 /108
Definitions: two types of homology
• 直系同源(Ortholog ):不同物种间的具有共同
进化祖先的同源序列,可以没有共同的功能。
• 旁系同源(Paralog ):同一物种内通过基因复
制产生的同源序列。
22 /108
common carp
普通鲤鱼
zebrafish
4 /108
作业
• Entrez Gene is a searchable database of genes, from RefSeq genomes, and defined by sequence and/or located in the NCBI Map Viewer
5 /108
作业
• Genes and Disease - introduction to the relationship between genetic factors and human disease. Summary information for ~60 genetic diseases with links to related databases and organizations.
rainbow trout
teleost
Orthologs: members of a gene (protein) family in various organisms. This tree shows RBP orthologs.
African clawed frog
非洲爪蟾
chicken human mouse rat horse pig cow rabbit
—Nature 15 Feb. 2001,
— Science 16 Feb. 2001
11 /108
Early example of sequence alignment: globins (1961) H.C. Watson and J.C. Kendrew, “Comparison Between the Amino-Acid Sequences of Sperm Whale Myoglobin and of Human Haemoglobin.” Nature 190:670-672, 1961.
• 蛋白序列可回溯更久远的祖先。
• DNA序列可以翻译成蛋白质序列再比对。
14 /108
15 /108
Lipocalin蛋白质家族的两个蛋白
retinol-binding protein 4 (NP_006735)
b-lactoglobulin (P02754)
两个相似的蛋白,它们有非常相似的三维结构,包括一配体的结合口 袋和八个反平行的贝塔链组成的贝塔片层。但是,两个蛋白质氨基酸 序列的双序列比对表明它们只有非常有限的氨基酸一致性。
10 changes
23 /108
apolipoprotein D retinol-binding protein 4 Complement component 8 Alpha-1 Microglobulin /bikunin prostaglandin D2 synthase progestagenassociated endometrial protein neutrophil gelatinaseassociated lipocalin
• 两行排列两条序列,以获得最大的一致性(对于氨基 酸而言是保守性),目的是可以评估两条序列的相似 程度和同源性。
20 /108
定义:
• 同源性(Homology):如果两条序列有一个共同
的进化祖先,那么它们是同源的。
RBP:
26
glycodelin: 23
RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVA 59 + K++ + ++ GTW++MA + L + A QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKA 55
自己翻译
2 /108
帮助文档
/Sitemap/samplerecord.html
3 /108
作业
• dbSNP - database of single nucleotide polymorphisms, small-scale insertions/deletions, polymorphic repetitive elements, and microsatellite variation.
课堂练习
• 查找rectal cancer(直肠癌) 在Homo sapiens中相关的基因。 • TP53( Homo sapiens ):mrna和蛋白质数目以及在染色体的位置。 • TP53( Homo sapiens ) :unigene中的数据。 • TP53为基因名。
1 /108
作业
• • • CDS Coding sequence; region of nucleotides that corresponds with the sequence of amino acids in a protein (location includes start and stop codons). gene A region of biological interest identified as a gene and for which a name has been assigned.
• The extent to which two sequences are invariant。
• 保守性(Conservation)
• Changes at a specific position of an amino acid or (less commonly, DNA) sequence that preserve the physicochemical properties of the original residue.
7 /108
• 以下哪个是RefSeq中mRNA【或蛋白质】条目的索引号 码? • (a)J01536; • (b)NM_15392 • (c)NP_52280 • (d)AAB134506
8 /108
序列比对
序列比对基本概念、打分矩阵与算法
9
主要内容
• 一、概述 • • • • • • • • 1,序列比对(联配)的概念 2,生物序列之间的关系 1,核酸的得分矩阵 2,蛋白质的得分矩阵 3,空位罚分体系
26 /108
定义
• 相似度(Similarity)
• The extent to which nucleotide or protein sequences are related. It is based upon identity plus conservation。
• 一致性(Identity)
• 双序列比对是后面要介绍的BLAST(搜索数据库)的基础。
• 其他很多基因组的分析都基于双序列比对。
13 /108
蛋白质序列比对包含更多的信息
• 蛋白质包含更多的信息(20 vs 4 characters); 许多氨基酸 有相近的理化性质。 • 密码子具有简并性质( degenerate )密码子第三位改变 而氨基酸不改变。
27 /108
Pairwise alignment of retinol-binding protein 4 and b-lactoglobulin(乳球蛋白)
Identity (bar)
28 /108
Pairwise alignment of retinol-binding protein 4 and b-lactoglobulin(乳球蛋白)
4
3
2
1
0
17 /108
18 /108
DNA比对
当然,有些场合需要进行DNA比对:
——分析克隆的cDNA片段的一致性的时候
——分析基因的非编码区的时候 ——研究DNA的多态性的时候 ——检验输入DNA序列是否正确
Query: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240 |||||||| |||| |||||| ||||| | ||||||||||||||||||||||||||||||| Sbjct: 189 catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac 247
19 /108
2,生物序列之间的关系
• 双序列比对( Pairwise alignment ):
Query: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240 |||||||| |||| |||||| ||||| | ||||||||||||||||||||||||||||||| Sbjct: 189 catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac 247
12 /108
1,序列比对的概念:序列比对是生物信息学