当前位置:
文档之家› 第三章 BLAST原理及方法
第三章 BLAST原理及方法
② Max target sequences:比对之后显示的最大的 比对序列的数目。
Step 4a: 选择可选的搜索参数Select optional search parameters
Step 4a: 选择可选的搜索参数Select optional search parameters
③ 期望expect:期望值E是得分大于或等于某个分值S的不 同的比对的数目在随机的数据库搜索中发生的可能性。这 个数值表示你仅仅因为随机性造成获得这一联配结果的可 能次数。对于blastn、blastp、blastxt和blastn期望值的默 认设置是10。在这个E值下,随机出现得分等于或高于比对 得分S的期望数为10个(这里是假设用与实际的查询序列长 度相等的随机的查询序列搜索数据库)。当将期望选项值调 小时,返回的数据库搜索结果将变少,匹配被搜索到的概 率也会变小。增大E值将返回更多的结果。
Example of the FASTA format for a BLAST query 一个FASTA格式的序列以一个单行的说明开始,接下来是 若干个行的序列数据。
在一个BLAST搜索中输入accession number通常要容易 些。BLAST程序可以识别和忽略出现在你的输入序列字母 中间的e
nr数据库是合并了若干个主要的蛋白质或DNA数据 库得到的。这些数据库中经常包含有相同的序列, 但nr数据库只收录其中的一个序列(即使在nr数据库 中出现看上去一样的序列,实际上还是具有一些细 节上的区别)。 nr数据库是在要搜索现有的绝大多 数序列时典型和常用的数据库。
NP_006735
Step 1: Choose your sequence
三种主要的输入方式: ❖ 剪切然后粘贴DNA或蛋白质序列 ❖使用FASTA格式的序列 ❖简单地使用索引号码(如一个RefSeq或GenBank (GI)的序号)。 Sequence can be input in FASTA format or as accession number
第三章 BLAST:
Basic local alignment search tool
BL A ST!
Outline
• Summary of key points about pairwise alignment • Introduction to BLAST: practical guide to database searching • The BLAST algorithm • BLAST search strategies
Why use BLAST?
BLAST 具有非常广泛的应用: ❖ 研究可能存在多种剪切方式的表达序列标签。有专门用 于BLAST搜索的EST数据库。实际上有许多用来进行搜索 专门的数据库,如专门的包含同一个特定的物种、一种组 织、一个染色体、一种DNA或一个蛋白质功能类的序列数 据库。 ❖ 寻找对于一个蛋白质的功能和/或结构起关键作用的氨基 酸残基。一次BLAST搜索的结果可以放在一起比对,这时 候,就会发现其中像半胱氨酸残基这样可能具有重要生物 学功能的保守残基。
对于核酸序列,默认的字段长度是11,BLAST的字长缺省值为11,即BLASTN将扫 描数据库,直到发现那些与未知序列的11个连续碱基完全匹配的11个连续碱基长度片段 为止。然后这些片段(即字)被扩展。11个碱基的字长已能有效地排除中等分叉的同源性和 几乎所有随机产生的显著联配。它可以被增大(15)或减小(7)。降低字段长度将会使搜索变 得更准确同时也会变得更慢。
Why use BLAST?
BLAST 是NCBI中用来将一个蛋白质或DNA序列和各种数 据库中的其他序列进行比对的主要工具。 BLAST搜索是研 究一个蛋白质和基因的最基本的方法之一。
Why use BLAST?
BLAST 具有非常广泛的应用: ❖ 确定特定的蛋白质或核酸序列有哪些已知的直系同源或 旁系同源序列。除了RBP外,还有哪些其他的脂质运载蛋 白是我们所知道的?当一个新的细菌的基因组被测序后, 几千种蛋白质被确定,其中有多少蛋白质是同源的?从这 里面测出的基因中有多少是在GenBank中找不到显著性同 源物的? ❖ 确定哪些蛋白质和基因在特定的物种中出现。植物中是 否也存在像RBP这样的脂质运载蛋白?鱼类中是否有反转 录酶基因(HIV-1 pol 基因)?
Four components to a BLAST search
(1) Choose the sequence (query) (2) Select the BLAST program (3) Choose the database to search (4) Choose optional parameters Then click “BLAST”
去冗余GenBank编码序列PDB + SwissProt + PIR + PRF
Step 4a: 选择可选的搜索参数Select optional search parameters
当确定了要输入的序列和要搜索的数据库之后,还 有10个其他的可选参数要确定。 ① Limit by Entrez Query:任何NCBI BLAST 搜索 的范围都可以用在Entrez搜索中使用的任何一种范 围限定词来限定。
Step 2: Choose the BLAST program
blastn (nucleotide BLAST):将一个核酸的查询序列与一个 核酸序列数据库相比较。 blastp (protein BLAST):将一个氨基酸的查询序列与一个 蛋白质序列数据库相比较。这类搜索有专门与蛋白质搜索 相关的可选参数,如对各种PAM和BLOSUM打分矩阵的选 择。 tblastn (translated BLAST):将一个蛋白质查询序列与一 个以所有阅读框动态翻译成蛋白质的核酸序列数据库进行 比较。可以用此程序来判断一个DNA数据库是否编码所感 兴趣的查询蛋白。用RBP查询是否可以在某个已测序的 DNA数据库中找到匹配项呢?
BLAST
BLAST (Basic Local Alignment Search Tool) allows rapid sequence comparison of a query sequence against a database. The BLAST algorithm is fast, accurate, and web-accessible.
5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
Step 3: choose the database
BLAST搜索可使用的数据库会列在每一个BLAST 页面上,对于蛋白质数据库搜索(blastp和blastx), 两个主要的选择即nr数据库和SwissProt。 nr = non-redundant (most general database) dbest = database of expressed sequence tags dbsts = database of sequence tag sites gss = genomic survey sequences htgs = high throughput genomic sequence
Step 2: Choose the BLAST program
Step 2: Choose the BLAST program
blastn (nucleotide BLAST) blastp (protein BLAST) tblastn (translated BLAST) blastx (translated BLAST) tblastx (translated BLAST)
Step 4a: 选择可选的搜索参数Select optional search parameters
Step 4a: 选择可选的搜索参数Select optional search parameters
④ 字段长度word size:BLAST程序是通过比对未知序列与数据库序列中的短序列来发现 最佳匹配序列的。最初进行“扫描”(scanning)就是确定匹配片段。序列的匹配程序由短 序列(定义为“word”,即字)的联配得分总和来决定。联配时,“字”的每个碱基均被计分 :如果碱基对完全相同(如A与A),得某一正值;如果碱基对不很匹配(W与A或T),则得 某一略小的正值;如果两个碱基不匹配,则得一负值。总的合计得分便决定了序列间的 相似程度。
Step 2: Choose the BLAST program
blastx (translated BLAST):将一个核酸的查询序列按所有可 能的阅读框翻译后的序列与一个蛋白质序列数据库进行比较。 如若有一个DNA序列,想知道它编码什么蛋白质,用此程序进 行搜索。它会自动将DNA翻译成6种可能的蛋白质。然后此程 序就会将翻译的6个蛋白质序列逐一与蛋白质序列数据库中的 各个成员进行比较。
Why use BLAST?
BLAST 具有非常广泛的应用: ❖ 确定一个DNA或蛋白质序列身份。如可能通过一个负杂 交实验或芯片实验发现一个特殊的DNA序列中你所使用的 实验条件下是被显著调控的,那么就可以通过将这个DNA 序列在一个蛋白质数据库中进行搜索,来寻找哪些蛋白质 是与你的DNA序列所编码的蛋白质相关性最高的。 ❖ 发现新基因。如一个对于全基因组DNA的BLAST搜索可 能会发现一个DNA所编码的蛋白质是以前所没有报道过的 ❖ 确定一个特定基因或蛋白质有哪些已经发现了的变种。 例如,很多病毒都具有极强的突变能力;HIV-1pol有哪些 已知的变异体?
Step 4a: 选择可选的搜索参数Select optional search parameters
Step 4a: 选择可选的搜索参数Select optional search parameters
Step 4a: 选择可选的搜索参数Select optional search parameters