当前位置:
文档之家› 最新blast简介及其应用131215汇总
最新blast简介及其应用131215汇总
在核酸数据库(用所有6种可读框翻译) 中比对待检的蛋白质序列
在核酸数据库(用所有6种可读框翻译) 中比对待检的核酸序列(也用所有6种 可读框翻译)
8
两种版本的BLAST比较(一)
网络版本 包括NCBI在内的很多网站都提供了在线 的BLAST服务,这也是我们最经常用到 的BLAST服务。网络版本的BLAST服务 就有方便,容易操作,数据库同步更新等 优点。但是缺点是不利于操作大批量的数 据,同时也不能自己定义搜索的数据库。
2.根据数据类型,选择合适的程序
1.登陆blast主页 /
BLAST/
组装的基因组序列库 所有的 BLAST基 因数据库 基本blast
特定的BLAST
17
18
BLASTN BLASTP
核酸数据库中 比对核酸序列
蛋白质数据库中 比对蛋白质序列
蛋白质数据库中 比对核酸序列
将该序列用FASTA格式存入记事本。 进入Blast界面选择一种自己所需的功能进行搜
索比对。 将需要查询序列键入框中选择数据库和确定比
对参数。 Blast(比对)
网页版 具体步骤
1.登陆blast主页 /BLAST/ 2.根据数据类型,选择合适的程序 3.填写表单信息 4.提交任务 5.查看和分析结果
蛋白质序列具有共同祖先的结论,属于质 的判断。就是说A和B的关系上,只有是 同源序列,或者非同源序列两种关系。而 说A和B的同源性为80%都是不科学的。
3
相似性和同源性关系
序列的相似性和序列的同源性有一定的关系, 一般来说序列间的相似性越高的话,它们是同源 序列的可能性就更高,所以经常可以通过序列的 相似性来推测序列是否同源。
基酸残基。 ❖ 确定特定的蛋白质或核酸序列有哪些已知的直系同源或
旁系同源序列。 ❖ 确定哪些蛋白质和基因在特定的物种中出现。 ❖ 确定一个DNA或蛋白质序列身份。 ❖ 发现新基因 ❖ 确定一个特定基因或蛋白质有哪些已经发现了的变种。
Blast的使用
首先在NCBI的基因数据库中找到一段基因核苷 酸序列(或者是通过测序得到的核苷酸序列) 。
正因为存在这样的关系,很多时候对序列的 相似性和同源性就没有做很明显的区分,造成经 常等价混用两个名词。所以有出现A序列和B序 列的同源性为80%一说。
4
Blast程序评价序列相似性的两个数据
Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨
基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、 相似性越高则Score值越大。
7
主要的BLAST程序(功能)
程序名 Blastn Blastp Blastx
查询序列 核酸 蛋白质 核酸
Tblastn 蛋白质
TBlastx 核酸
数据库
搜索方法
核酸 在核酸数据库中比对核酸序列
蛋白质 在蛋白质数据库中比对蛋白质序列
蛋白质 核酸 核酸
在蛋白质数据库中比对待检的核酸序列( 用所有6种可读框翻译)
力的统计模型来确定未知序列与数据库序列的最 佳局部联配,可在序列数据库中对查询序列进行
相似性比对工作。
6
BLAST简介
BLAST搜索的六大优点: 使用方便,功能齐全 速度快,结果可信 NCBI精心维护,持续开发 配套数据库不断更新 免费服务(NCBI、EBI、TIGR) 免费下载,本地安装
10
Why use BLAST?
BLAST 是NCBI中用来将一个蛋白质或 DNA序列和各种数据库中的其他序列进行 比对的主要工具。 BLAST搜索是研究一 个蛋白质和基因的最基本的方法之一。
BLAST的使用
BLAST 具有非常广泛的应用: ❖ 研究可能存在多种剪切方式的表达序列标签。。 ❖ 寻找对于一个蛋白质的功能和/或结构起关键作用的氨
5
BLAST简介
BLAST既是一种算法也是一种基于该算法设
计出的搜索工具,是由美国国家生物信息中心
(NCBI)研发的一个生物信息数据库搜索工具 系统,该系统对于生物基因序列数据在计算机中 的表达和处理作了许多的研究,提供了一个快速 的基于碱基数据的搜索引擎。
BLAST是基于匹配短序列片段,用一种强有
E value:在相同长度的情况下,两个氨基酸残基(或碱基)随
机排列的序列进行打分,得到上述Score值的概率的大小。E值越 小表示随机情况下得到该Score值的可能性越低。 我们在获得一个Blast结果时需要看这两个指标。 如果Blast获得的目标序列的Score值越高并且E-value越低表明结 果越可信,反之越不可信.
9
两种版本的BLAST比较(二)
单机版 单机版的BLAST可以通过NCBI的ftp站点获得, 有适合不同平台的版本(包括linux,dos等)。 获得程序的同时必须获取相应的数据库才能在 本地进行BLAST分析。单机版的优点是可以处 理大批的数据,可以自己定义数据库,但是需 要耗费本地机的大量资源,此外操作也没有网 络版直观、方便,需要一定的计算机操作水平 。
蛋白质数据库中 比对核酸序列
核酸数据库中 比对蛋白质序列
标准蛋白质数据库
20
快速搜索 组装的基因序列库
所有的 BLAST基 因数据库 基本操作
特定的BLAST
特定的BLAST
22
2.根据数据类型,选择合适的程序
23
2.根据数据类型,选择合适的程序
➢blastn (nucleotide BLAST):将一个核酸的查 询序列与一个核酸序列数据库相比较。 ➢blastp (protein BLAST):将一个氨基酸的查询 序列与一个蛋白质序列数据库相比较。这类搜索 有专门与蛋白质搜索相关的可选参数,如对各种 PAM和BLOSUM打分矩阵的选择。
blast简介及其应用131215
生物序列的相似性
相似性(similarity): 是指一种很直接的数量关系,比如
部分相同或相似的百分比或其它一些合 适的度量。比如说,A序列和B序列的相 似性是80%,或者4/5。这是个量化的 关系。当然可进行自身局部比较。
2
生物序列的同源性
同源性(homology): 指从一些数据中推断出的两个基因或