BLAST 核酸/氨基酸序列相似性比较Blast(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。
BLAST程序能迅速与公开数据库进行相似性序列比较。
BLAST结果中的得分是对一种对相似性的统计说明。
BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。
如果您想进一步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。
BLAST的功能BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。
BLAST还能发现具有缺口的能比对上的序列。
BLAST是基于Altschul等人在上发表的方法在序列数据库中对查询序列进行同源性比对工作。
从最初的BLAST发展到现在NCBI提供的,已将有缺口的比对序列也考虑在内了。
BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。
所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。
BLAST包含的程序:1、BLASTP是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。
与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
5、TBLASTX是核酸序列到核酸库中的一种查询。
此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
通常根据查询序列的类型(蛋白或核酸)来决定选用何种BLAST。
假如是作核酸-核酸查询,有两种BLAST供选择,通常默认为BLASTN。
如要用TBLASTX也可,但记住此时不考虑缺口。
BLAST适用于本地查询。
可以下载公共数据库,对于该数据库的更新和维护是必不可少的。
如果要直接到网上查询也可以(即NetBlast),但记住如果你认为自己的序列很有价值的话,还是谨慎为宜。
如何访问在线的BLAST功能服务您只要通过浏览器访问Blast主页( 。
所有的查询和分析都通过浏览器来完成,就象您在您的本地机上一样方便和快捷。
BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。
Blast中常用的程序介绍:1、BLASTP是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。
与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
5、TBLASTX是核酸序列到核酸库中的一种查询。
此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
NCBI的在线blast:,进入在线blast界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。
不同的blast程序上面已经有了介绍。
这里以常用的核酸库作为例子。
2,粘贴fasta格式的序列。
选择一个要比对的数据库。
关于数据库的说明请看NCBI在线blast数据库的简要说明。
一般的话参数默认。
3,blast参数的设置。
注意显示的最大的结果数跟E值,E值是比较重要的。
筛选的标准。
最后会说明一下。
4,注意一下你输入的序列长度。
注意一下比对的数据库的说明。
5,blast结果的图形显示。
没啥好说的。
6,blast结果的描述区域。
注意分值与E值。
分值越大越靠前了,E值越小也是这样。
7,blast结果的详细比对结果。
注意比对到的序列长度。
评价一个blast结果的标准主要有三项,E值(Expect),一致性(Identities),缺失或插入(Gaps)。
加上长度的话,就有四个标准了。
如图中显示,比对到的序列长度为1405,看Identities这一值,才匹配到1344bp,而输入的序列长度也是为1344bp(看上面的图),就说明比对到的序列要长一点。
由Qurey(起始1)和Sbjct(起始35)的起始位置可知,5'端是是多了一段的。
有时也要注意3'端的。
附:E值(Expect):表示随机匹配的可能性,E值越大,随机匹配的可能性也越大。
E值接近零或为零时,具本上就是完全匹配了。
一致性(Identities):或相似性。
匹配上的碱基数占总序列长的百分数。
缺失或插入(Gaps):插入或缺失。
用"—"来表示。
BlastN/MegaBlast/Discontiguous MegaBlast 的区别:三者之间的共同之处就是 BlastN/Megablast/Discontiguous megablast 都是BlastN,就是核酸序列比对核酸序列的算法。
简单而言BlastN : 应该是出现较早的算法。
比对的速度慢,但允许更短序列的比对(如短到7个碱基的序列)。
MEGABLAST : 主要用来鉴定一段新的核酸序列,它并不注重比对各个碱基的不同和序列片断的同源性,而只注重被比对序列是否是数据库未收录的,是否为新的提交序列或基因。
速度快。
同一物种间的。
Discontiguous MEGABLAST : 灵敏度(sensitivity)更高,用于更精确的比对。
主要用于跨物种之间的同源比对。
详细解释1,MEGABLAST 常被用于鉴定核酸序列MEGABLAST is the tool of choice to identify a nucleotide sequence.MegaBLAST也是一种BLASTN程序,不过它主要是用来在非常相似的序列之间(来自同一物种)比对同源性的。
鉴定某一段核酸序列是否存在于数据库,最好的方法是选择MEGABLAST。
如果比对到的序列在数据库中注释完整的话,那该序列丰富的注释可以当作新序列的参考。
当然,Bl astN/MEGABLAST/Discontiguous MEGABLAST,都可以完成这种事情。
但MEGABLAST就是特别设计用于非常相似序列之间的比对,可用于寻找查询序列的最佳匹配的序列。
2,Discontiguous MEGABLAST 更好地用于查找不同物种的相似的核酸序列,而不是与查询序列相同(identical)物种的。
Discontiguous MEGABLAST is better at finding nucleotide sequences similar, but not identical, to your nucleotide query.Discontiguous MEGABLAST,用于跨物种核酸序列快速比对。
它使用非重叠群字段匹配算法(noncontiguous word match)来进行核酸比对。
Discontiguous MegaBLAST比bl astx等翻译后比对要快得多,同时它在比较编码区时也具有相当高的敏感度。
但是需要指出的是,核酸与核酸之间的比对并不是发现同源蛋白编码区域的最佳方法,直接在蛋白水平用Blastp比对更好。
这是因为密码子的简并性。
(Lc.注:翻译得有些拗口,多多见谅!)Discontiguous MEGABLAST详细介绍:原文:本文详细出处参考:1009/#more-10091,Blastp: 标准的蛋白序列与蛋白序列之间的比对Standard protein BLAST is designed for protein searches.Blastp用于确定查询的氨基酸序列在蛋白数据库中找到相似的序列。
跟其它的Blast程序一样,目的是要找到相似的区域。
2,PSI-BLAST : 敏感度更高的蛋白序列与蛋白序列之间的比对PSI-BLAST is designed for more sensitive protein-protein similarity searche s.Position-Specific Iterated (PSI)-BLAST,是一种更加高灵敏的Blastp程序,对于发现远亲物种的相似蛋白或某个蛋白家族的新成员非常有效。
当你使用标准的Blastp比对失败时,或比对的结果仅仅是一些假基因或推测的基因序列时("hypothetical pr otein" or "similar to..."),你可以选择PSI-BLAST重新试试。
3,PHI-BLAST : 模式发现迭代BLASTPHI-BLAST can do a restricted protein pattern search.PHI-BLAST, 模式发现迭代BLAST, 用蛋白查询来搜索蛋白数据库的一个程序。
仅仅找出那些查询序列中含有的特殊模式的对齐。
PHI的语法详细介绍看这里:Peptide Sequence Databases蛋白序列的数据库nrAll non-redundant GenBank CDS translations + RefSeq Proteins + PDB + Swis sProt + PIR + PRF所有非冗余的的GenBank CDS区的翻译序列 + 参考序列的蛋白 + PDB数据库+ Swis sProt蛋白数据库 + PRF蛋白数据库refseqRefSeq protein sequences from NCBI's Reference Sequence Project.所有NCBI的参考序列swissprotLast major release of the SWISS-PROT protein sequence database (no updates). swissprot的蛋白数据库Proteins from the Patent division of GenPept.专利的蛋白数据库pdbSequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank.PDB数据库monthAll new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released i n the last 30 days.一个月内新增加的蛋白序列env_nrProtein sequences from environmental samples.来自environmental samples的蛋白序列Nucleotide Sequence Databases核酸数据库nrAll GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excluding H TGS0,1,2, EST, GSS, STS, PAT, WGS). No longer "non-redundant".所有GenBank的核酸序列 + 参考序列中的核酸序列+ EMBL +DDBJ +PDB核酸序列(但不包括HTG,EST,GSS等序列)refseq_rnaRNA entries from NCBI's Reference Sequence projectNCBI参考序列中的核酸序列refseq_genomicGenomic entries from NCBI's Reference Sequence projectNCBI参考序列中的基因组序列estDatabase of GenBank + EMBL + DDBJ sequences from EST Divisions来自GenBank + EMBL + DDBJ 的EST序列est_humanHuman subset of est.人的EST序列est_mouseMouse subset.小鼠的EST序列est_othersNon-Mouse, non-Human subset of est.、除了人与小鼠之外的EST序列Genome Survey Sequence, includes single-pass genomic data, exon-trapped seq uences, and Alu PCR sequences.htgsUnfinished High Throughput Genomic Sequences: phases 0, 1 and 2 (finished, phase 3 HTG sequences are in nr)未发布的高通量的基因组测序patNucleotides from the Patent division of GenBank.专利的核酸序列pdbSequences derived from the 3-dimensional structure from Brookhaven Protein Data BankPDB核酸序列monthAll new or revised GenBank + EMBL + DDBJ + PDB sequences released in the la st 30 days.一个月内新增的核酸序列dbstsDatabase of GenBank+EMBL+DDBJ sequences from STS Divisions .STS数据库chromosomeA database with complete genomes and chromosomes from the NCBI Reference Se quence project..NCBI参考序列计划中所有的完整基因组和染色体序列wgsA database for whole genome shotgun sequence entries.基因组鸟枪法测序得到的序列env_ntNucleotide sequences from environmental samples, including those from Sarga sso Sea and Mine Drainageprojects.来自environmental samples的核酸序列。