当前位置:文档之家› 序列的同源性比较及分子系统学和分子进化分析

序列的同源性比较及分子系统学和分子进化分析


分析过程( 分析过程(三)
6.限制条件,我们限制 限制条件, 限制条件 在病毒里面找。 在病毒里面找。
7.其他选项保持默认值 其他选项保持默认值
打分矩阵
分析过程( 分析过程(四)
8.输出格式选项保持 输出格式选项保持 默认值
9.点击开始搜索 点击开始搜索
分析过程( 分析过程(五)
10.查询序列的一些 查询序列的一些 相关信息
Blast程序的选择 程序的选择
Blast 是一个序列相似性搜索的程序 其中包含了很多个独立的程序, 包,其中包含了很多个独立的程序, 这些程序是根据查询的对象和数据 库的不同来定义的。 库的不同来定义的。
主要的blast程序 程序 主要的
程序名 Blastn Blastp Blastx 查询序列 核酸 蛋白质 核酸 蛋白质 数据库 核酸 蛋白质 蛋白质 核酸 搜索方法 核酸序列搜索逐一核酸数据库中的序 列 蛋白质序列搜索逐一蛋白质数据库中 的序列 核酸序列6框翻译成蛋白质序列后和 核酸序列 框翻译成蛋白质序列后和 蛋白质数据库中的序列逐一搜索。 蛋白质数据库中的序列逐一搜索。 蛋白质序列和核酸数据库中的核酸序 列6框翻译后的蛋白质序列逐一比 框翻译后的蛋白质序列逐一比 对。 核酸序列6框翻译成蛋白质序列, 核酸序列 框翻译成蛋白质序列,再 框翻译成蛋白质序列 和核酸数据库中的核酸序列6框翻 和核酸数据库中的核酸序列 框翻 译成的蛋白质序列逐一进行比对。 译成的蛋白质序列逐一进行比对。
序列同源性分析: 序列同源性分析: 将待研究序列加入到一组与之同源, 将待研究序列加入到一组与之同源 , 但来自不同物种的序列中进行多序 列同时比较, 列同时比较 , 以确定该序列与其它 序列间的同源性大小。 序列间的同源性大小 。 这是理论分 析方法中最关键的一步。 析方法中最关键的一步 。 完成这一 工作必须使用多序列比较算法。 工作必须使用多序列比较算法 。 常 用的程序包有CLUSTAL等 用的程序包有 等
第五章 序列的同源性比较 及分子系统学和分子进化分析
相似性和同源性关系
序列的相似性和序列的同源性有一定的关 一般来说序列间的相似性越高的话, 系,一般来说序列间的相似性越高的话, 它们是同源序列的可能性就更高, 它们是同源序列的可能性就更高,所以 经常可以通过序列的相似性来推测序列 是否同源。 是否同源。 正因为存在这样的关系, 正因为存在这样的关系,很多时候对序 列的相似性和同源性就没有做很明显的 区分,造成经常等价混用两个名词。 区分,造成经常等价混用两个名词。所 以有出现A序列和 序列的同源性为80% 序列和B序列的同源性为 以有出现 序列和 序列的同源性为 % 一说。 一说。
Blast结果 结果
Blast结果会列出跟查询序列相似性比较高, 结果会列出跟查询序列相似性比较高, 结果会列出跟查询序列相似性比较高 符合限定要求的序列结果, 符合限定要求的序列结果,根据这些结果 可以获取以下一些信息。 可以获取以下一些信息。 查询序列可能具有某种功能 查询序列可能是来源于某个物种 查询序列可能是某种功能基因的同源基因
NCBI提供的 提供的Blast服务 提供的 服务
登陆ncbi的 的 登陆 blast主页 主页
核酸序列
蛋白序列
翻译序列
还有其他一些针对特 殊数据库的和查看以 往的比对结果等
Blast任务提交表单(一) 任务提交表单( 任务提交表单
1.序列信息部分 序列信息部分
序列范围 默认全部) (默认全部)
Blast程序 程序
BLAST 是一个基于序列相似性的数据库 搜索程序。 搜索程序。是“局部相似性基本查询工 具”(Basic Local Alignment Search Tool) 缩写。 的 缩写。 Blast 是一个序列相似性搜索的程序包, 是一个序列相似性搜索的程序包, 其中包含了很多个独立的程序, 其中包含了很多个独立的程序,这些程 序是根据查询的对象和数据库的不同来 定义的。 定义的。
我们通过blast搜索来获取一些这个序列的 搜索来获取一些这个序列的 我们通过 信息。 信息。
具体步骤
1.登陆 登陆blast主页 登陆 主页 /BLAST/ 2.根据数据类型,选择合适的程序 根据数据类型, 根据数据类型 3.填写表单信息 填写表单信息 4.提交任务 提交任务 5.查看和分析结果 查看和分析结果
Blast的版本 的版本
网络版本 NCBI在内的很多网站都提供了在线的 在内的很多网站都提供了在线的blast 在内的很多网站都提供了在线的 服务,是最经常用到的blast服务。 服务。 服务,是最经常用到的 服务 优点:方便,容易操作, 优点:方便,容易操作,数据库同步更新 等优点。 等优点。 缺点:不利于操作大批量的数据, 缺点:不利于操作大批量的数据,同时也 不能自己定义搜索的数据库
多序列比对的方法
同源性分析中常常要通过多序列比 对来找出序列之间的相互关系, 对来找出序列之间的相互关系,和 blast的局部匹配搜索不同,多序列 的局部匹配搜索不同, 的局部匹配搜索不同 比对大多都是采用全局比对的算法。 比对大多都是采用全局比对的算法。 这样对于采用计算机程序的自动多 序列比对是一个非常复杂且耗时的 过程,特别是序列数目多, 过程,特别是序列数目多,且序列 长的情况下。 长的情况下。
单机版 通过NCBI的ftp站点获得。获得程序的同 的 站点获得 站点获得。 通过 时必须获取相应的数据库才能在本地进 分析。 行blast分析。 分析 优点:可以处理大批的数据, 优点:可以处理大批的数据,可以自己定 义数据库, 义数据库, 缺点:需要耗费本地机的大量资源, 缺点:需要耗费本地机的大量资源,此外 操作也没有网络版直观、方便, 操作也没有网络版直观、方便,需要一 定的计算机操作水平。 定的计算机操作水平。
Blast程序评价序列相似性的两个数据 程序评价序列相似性的两个数据
Score:使用打分矩阵对匹配的片段进行打 : 这是对各对氨基酸残基(或碱基) 分,这是对各对氨基酸残基(或碱基) 打分求和的结果,一般来说, 打分求和的结果,一般来说,匹配片段 越长、 相似性越高则Score值越大。 值越大。 越长、 相似性越高则 值越大 E value:在相同长度的情况下,两个氨基酸 在相同长度的情况下, 在相同长度的情况下 残基(或碱基) 残基(或碱基)随机排列的序列进行打 得到上述Score值的概率的大小。E 值的概率的大小。 分,得到上述 值的概率的大小 值越小表示随机情况下得到该Score值的 值越小表示随机情况下得到该 值的 可能性越低。 可能性越低。
在cdd库里面找 库里面找 到两个保守区域, 到两个保守区域, 点击可以进入
分析过程( 分析过程(六)
图形结果
分析过程( 分析过程(七)
匹配序列列表
分析过程( 分析过程(八)
具体匹配情况
其他的序列相似性搜索工具 -FastA
FastA算法是由 算法是由Lipman和Pearson于1985年 算法是由 和 于 年 发表的( 发表的(Lipman和Pearson,1985)。 和 , )。 FastA的基本思路是识别与代查序列相匹 的基本思路是识别与代查序列相匹 配的很短的序列片段,称为k-tuple。 配的很短的序列片段,称为 。 以下链接是EBI提供的 提供的fasta服务。 服务。 以下链接是 提供的 服务 /fasta
序列相似性比较和序列同源性分析
序列相似性比较: 序列相似性比较: 将待研究序列与DNA或蛋白质序列库 或蛋白质序列库 将待研究序列与 进行比较, 进行比较,用于确定该序列的生物属 性,也就是找出与此序列相似的已知 序列是什么。 序列是什么。完成这一工作只需要使 用两两序列比较算法。 用两两序列比较算法。常用的程序包 有BLAST、FASTA等 、 等
点击开始搜索
其他一些显示格式参数
提交任务
返回查询号( 返回查询号(request id) )
修改完显示格式后点 击进入结果界面
可以修改显示结果格式
结果页面( 结果页面(一)
图形示意结果
结果页面( 结果页面(二)
目标序列描述部分
带有genbank的链接,点击可以进入 的链接, 带有 的链接 相应的genbank序列 相应的 序列
E的话,可以在这里加入更多的参数 的命令行选项熟悉的话, 如果你对 的命令行选项熟悉的话
Blast任务提交表单(三) 任务提交表单( 任务提交表单
3.设置结果输出显示格式 设置结果输出显示格式 选择需要显示的选项 以及显示的文件格式 E值范围 值范围 显示数目 Alignment的显 的显 示方式 筛选结果
填入查询( 填入查询(query)的序列 )
选择搜索数据库 如果接受其他参数默认 设置, 设置,点击开始搜索
Blast任务提交表单(二) 任务提交表单( 任务提交表单
2.设置各种参数部分 设置各种参数部分
设置搜索的范围, 关键词, 设置搜索的范围,entrez关键词, 关键词 或者选择特定物种
一些过滤选项, 一些过滤选项,包括简 单重复序列, 单重复序列,人类基因 组中的重复序列等
分析过程( 分析过程(一)
1.登陆 登陆ncbi的blast主页 登陆 的 主页 2.选择程序,因为 选择程序, 选择程序 查询序列是蛋白序 列可以选择blastp, 列可以选择 , 点击进入
也可以选择tblastn 也可以选择
作为演示, 作为演示, 我们这里选blastp 我们这里选
分析过程( 分析过程(二)
各个参数选项
帮助信息 填入搜索序列
多序列比对及Clustal的使用 的使用 多序列比对及
多序列比对的意义
用于描述一组序列之间的相似性关系, 用于描述一组序列之间的相似性关系, 以便了解一个基因家族的基本特征, 以便了解一个基因家族的基本特征, 寻找motif,保守区域等。 寻找 ,保守区域等。 用于描述一个同源基因之间的亲缘关 系的远近,应用到分子进化分析中。 系的远近,应用到分子进化分析中。
相关主题