当前位置:文档之家› 生物信息学软件的使用

生物信息学软件的使用



多序列比对实例
输入文件的格式(fasta): >KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN…… >DMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK……. >KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN…… >DAF1_CAEEL QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD…… >1CSN HYKVGRRIGEGSFGVIFEGTNLLNN……
Clustal简介

CLUSTAL是一种渐进的比对方法,先将多个 序列两两比对构建距离矩阵,反应序列之间两 两关系;然后根据距离矩阵计算产生系统进化 指导树,对关系密切的序列进行加权;然后从 最紧密的两条序列开始,逐步引入临近的序列 并不断重新构建比对,直到所有序列都被加入 为止。ClustalW是现在用的最广和最经典的多 序列比对软件
多序列比对工具-clustalX

Clustalx是一个单机版的基于渐进比对的多序列比对 工具,由Higgins D.G. 等开发。和网络版的Clustalw 有异曲同工之效. 有应用于多种操作系统平台的版本,包括linux版, DOS版的clustlw,windows版本的clustalx等。

输入控 制命令 输入文 件名称
输出控 制命令
程序 名称
结果保存 uscle进行比对过程演示
Genedoc与BioEdit的简单介绍

GeneDoc是一个特别的排列程序,有很好的 蛋白质排列注释和分析、描影和结构定义功能 部件,就像一个反映排列的内在的进化树。 BioEdit也是一个生物序列编辑器,它的基本 功能是提供蛋白质、核酸序列的编辑、处理和 分析

该软件主要由以下四个功能板块组成 1.Primer 引物设计 2.Align 序列比较 3.Enzyme 酶切分析 4.Motif 基序分析
点击此处输 入DNA序列
点击此按钮开 始进行引物的 设计
将序列粘贴到 此框内
点击此按钮开 始进行下一步
在此选择引 物的类型
在此选择设计引 物的实验目的
Clustal的工作原理
Clustal输入多个序列 快速的序列两两比对,计算序列间的 距离,获得一个距离矩阵。 邻接法(NJ)构建一个树(引导树) 根据引导树,渐进比对多个序列。
Clustal的应用

输入序列的格式比较灵活,可以是前面介绍过 的FASTA格式,还可以是PIR、SWISS-PROT、 GDE、Clustal、GCG/MSF、RSF等格式。 输出格式也可以选择,有ALN、GCG、 PHYLIP和NEXUS等,用户可以根据自己的需 要选择合适的输出格式。
.aln格式到.meg格式的转换
点击此处进 行格式转换 点击此处 找到.aln 文件所在 的位置
点击保存按钮保 存.meg格式文件
将.meg或.fas格式文件直接拖入MEGA5界 面,进行系统发生树分析
选择不同 类型的构 树方法
MrBayes法构建系统发生树

MrBayes程序所采用的贝叶斯推理法是从贝叶斯定理 衍生而来的。在系统发生分析中,贝叶斯推理法通过 对一定数量进化树的后验概率分布情况进行分析,从 而对系统发生事件做出判断。分析是需要采用马科夫 链-蒙特卡罗数据模拟技术来估算后验概率。

多序列比对的方法

同源性分析中常常要通过多序列比对来找出序 列之间的相互关系,和blast的局部匹配搜索不 同,多序列比对大多都是采用全局比对的算法。 这样对于采用计算机程序的自动多序列比对是 一个非常复杂且耗时的过程,特别是序列数目 多,且序列长的情况下。
常用的多序列比对软件

Clustalx Muscle Genedoc BioEdit
MrBayes法构树流程

首先需要通过比对生成一个.nex格式的文件 将生成的.nex格式文件放到MyBayes程序所在 的文件 运行MyBayes命令
Muscle的使用方法

拷贝序列文件到muscle文件夹内 “开始”菜单运行“CMD”,进入命令行操作 系统 命令行操作进入到muscle目录 运行muscle命令(查看参数设置说明) 进行序列比对操作
Muscle基本操作命令

muscle –in xxx.txt –out xxx.aln -clw
生物信息学软件及使用方法
主讲人:金萍
生物信息学软件分类
单机分析软件 在线分析软件 生物学数据库

生物信息学软件的意义
1.
分析和处理实验数据和公共数据,加快研究 进度,缩短科研时间。
2.
提示、指导、替代实验操作,利用对实验数 据的分析所得的结论设计下一阶段的实验。
3.
用计算机管理实验数据。
生物学软件常用功能(核酸类)
DNA序列片断拼接 分析mRNA开放阅读框 PCR引物设计 核酸序列的比对 系统发生树的构建
生物学软件常用功能(蛋白类)
蛋白一级结构分析(氨基酸分析)
蛋白二级结构分析(结构域分析)
蛋白三级结构分析(空间结构分析)
一、DNA 序列片断拼接(电子基因克隆)

获得感兴趣的EST,在EST数据库中找出目标EST的最有 效的途径是寻找同源序列,标准:长度≥100bp,同源 性50%以上、85%以下。 然后将检出序列组装为重叠群(contig),以此重叠 群为被检序列,重复进行BLAST检索与序列组装,延伸 重叠样序列,重复以上过程,直到没有更多的重叠EST 检出或者说重叠群序列不能继续延伸,有时可获得全 长的基因编码序列。 常用的序列拼接软件:DNAMAN、Sequencher、DNAstar
(即错配)。
引物设计需要考虑的因素

引物长度(primer length), 产物长度(product length), 序列Tm值 (melting temperature), ΔG值(internal stability), 引物二聚体及发夹结构(duplex formation and hairpin), 错误引发位点(false priming site), 引物及产物GC含量(composition),有时还要对引 物进行修饰,如增加限制酶切点,引进突变等。
Beacon Designer是一款实时荧光定量PCR分 子信标(Molecular Beacon)及TaqMan探针 设计软件。
点击此按钮输出结 果
点击此处
多序列的比对
多序列比对的意义 多序列比对的方法 常用的多序列比对软件介绍

多序列比对的意义

用于描述一组序列之间的相似性关系,以便了 解一个基因家族的基本特征,寻找motif,保守 区域等。 用于描述一个同源基因之间的亲缘关系的远近, 应用到分子进化分析中。

GeneDoc的比对结果
BioEdit的比对结果
系统发生树软件的使用

进化树的构建是一个统计学问题。我们所构建 出来的进化树只是对真实的进化关系的评估或 者模拟。如果我们采用了一个适当的方法,那 么所构建的进化树就会接近真实的“进化树”。 模拟的进化树需要一种数学方法来对其进行评 估。不同的算法有不同的适用目标。

作简单的进化树图很多可以进行序列比对的软 件都能做到,如CLUSTAL X、DNAstar等。但 真正专业的还是以下几个:MEGA5, MrBayes, PHYLIP等.
Mega法构建系统发生树



首先将用于构建系统发生树的序列采用 clustalx软件或muscle软件进行序列的比对分 析,分别得到.aln格式或者.fas格式的文件 .aln格式的文件需要先转换成.meg格式后方可 进行系统发生树的构建 .fas格式的文件可以直接用于系统发生树的构 建
第一步:输入序列文件 导入序列
第二步:设定比对的一些参数
做全局比对
点Do Complete Alignment之后弹出的文件对话 框,.dnd的是输出的指导树文件,.aln的是序列比对 结果,它们都是纯文本文件
最后的输出格式 为aln格式
这时候我们可以发现ClustalX已经生成了.dnd 和.aln两个文件

关于引物的自动搜索和评价分析

推荐使用自动搜索软件:
Primer Premier 5.0

用于实时定量的引物设计软件:
Beacon Designer 7.0
primer premier5.0

primer premier5.0 是一种用来设计引物的应用软件 利用它的高级引物搜索引物数据库,可以做引物设计、 引物编辑和分析等功能。
引物设计要点

ΔG值反映了引物与模板结合的强弱程度,也是一个重 要的引物评价指标。

其原理,引物与模板应具有较高的结合能量,这样有 利于引物与模板序列的整合,因此5’端与中间段的ΔG 值应较高,而3’端ΔG值影响DNA聚合酶对模板DNA的 解链,过高则不利于这一步骤。
引物二聚体及发夹结构的能量一般不要超过4.5,否则 容易产生引物二聚体带,且会降低引物浓度从而导致 PCR正常反应不能进行。

点击File 选择Sequence选 项
点击 Import
将需要拼接的 序列全部选中
点击此处进 行序列拼接
没有拼接上的序列 则保留原来的名字
能够拼接上的就 命名为contig
开放阅读框的预测
分析步骤

获得尽量长的mRNA序列。 分析可能的读框(六种)。 软件:基因探索者, Omiga 等。 在线:(/gorf/gorf.html)

选取最可能的一种。看是否符合各种条件。
点击此处进行序 列的格式化
相关主题