当前位置:文档之家› 多序列比对与Clustal的使用,以及各类常见的序列分析工具介绍

多序列比对与Clustal的使用,以及各类常见的序列分析工具介绍


多序列比对工具 -clustal
Clustal是一个单机版的基于渐进比对的 多序列比对工具,由Higgins D.G. 等开发。 有应用于多种操作系统平台的版本,包括 linux版,DOS版的clustlw,clustalx等。
Clustal简介
• CLUSTAL是一种渐进的比对方法,先将 多个序列两两比对构建距离矩阵,反应 序列之间两两关系;然后根据距离矩阵 计算产生系统进化指导树,对关系密切 的序列进行加权;然后从最紧密的两条 序列开始,逐步引入临近的序列并不断 重新构建比对,直到所有序列都被加入 为止。
trasbg.fr/BioInfo/ClustalX/Top.html
实际操作(练习)
• 使用clustalx程序,对给定的多序列, 选择合适的参数,进行多序列比对,输 出结果文件维phylip格式。 • 相同的文件,使用ebi和我们提供的在线 服务,进行多序列比对。
1.传统的命令行形式,这种情况要求用户熟悉程序 的命令。 2.借助SeqLab的用户窗口界面,通过各类表单的 操作来实现分析任务。 以上两个执行GCG的方法都是通过telnet来实现的。 3. 借助于WWW服务的SeqWeb,是最为简单和 方便的使用方式。
虽然命令行的操作需要一些操作,但是对于 熟悉GCG的用户来说,却是最为快捷和有效的 方法,此外这种方法还可以扩展到批处理中。
Clustalx的工作界面 (多序列比对模式)
Clustalx的工作界面 (剖面(profile)比对模式)
Clustal的工作原理
Clustal输入多个序列 快速的序列两两比对,计算序列间的 距离,获得一个距离矩阵。 邻接法(NJ)构建一个树(引导树) 根据引导树,渐进比对多个序列。
Clustal的应用
GCG的工作方式(S-C) 安装在基于Unix系统的服务器上,目 前可以安装的平台(platform)有SGI 的 IRIX 操作系统,SUN 的Solaris操作系 统,及Compaq 的Tru64操作系统,用 户可以通过网络连接的方法来使用GCG 提供的分析程序以及数据库。
执行GCG程序的方法
4.分子进化分析工具
• PHYLIP • PAUP* • 其他:Mega2,MrBayes,tree-puzzle PAML,treeview
PHYLIP
Phylip是一个免费的系统发生(phylogenetics)分 析软件包。 由华盛顿大学遗传学系开发,1980年首 次公布,目前的版本是3.6。包含了35个独立的
1.同步法 将序列两两比对时的二维动态规划矩 阵扩展到三维矩阵。即用矩阵的维数来 反映比对的序列数目。这种方法的计算 量很大,对于计算机系统的资源要求比 较高,一般只有在进行少数的较短的序 列的比对的时候才会用到这个方法。
自动多序列比对的算法
2.步进法 最常见的就是clustal所采用的方法。
其基本思想就是基于相似序列通常具 有进化相关性的这一假设。
• 对上述计算机程序比对的结果进行手工 改动(bioedit,seaview),使得多序 列比对结果跟符合要求。
第二部分: 常见的序列分析软件分类简介
1.综合序列分析软件包
• • • • • • GCG EMBOSS(免费) Vector NTI DNAstar Bioedit(免费) 其他
GCG(商业软件)
序列相似性比较和序列 同源性分析
序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较, 用于确定该序列的生物属性,也就是找出与此序列相似 的已知序列是什么。完成这一工作只需要使用两两序列 比较算法。常用的程序包有BLAST、FASTA等; 序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物 种的序列中进行多序列同时比较,以确定该序列与其它 序列间的同源性大小。这是理论分析方法中最关键的一 步。完成这一工作必须使用多序列比较算法。常用的程 序包有CLUSTAL等;
多序列比对与Clustal的使用, 以及各类常见的序列分析工具 介绍
中山大学生科院
2004年10月
内容提要
第一部分:多序列比对 • 意义、方法、算法 • Clustal的使用 1.Clustalx 2.Clustalw
第二部分:常见的序列分析软 件分类简介
第一部分: 多序列比对及Clustal的使用
DNAstar
DNASTAR有限公司开发了Lasergen程序 组,可在计算机上进行DNA和蛋白分析。它们 是易于使用且对用户友好的软件,可进行分子 生物学中的小规模序列分析和多序列比较。 Lasergen有PC Windows和Macintosh两种版 本。Lasergen的一个主要功能是它有针对不 同应用的7种程序。用户可根据自己需要选择 购买。
除了分析程序以外, GCG 同时也提供多种生物 学数据库。 核酸相关的: GenBank(/ ) EMBL (/) 蛋白质相关的: SWISS-PROT (http://www.expasy.ch/sprot/) PIR (/pir/) SP-TrEMBL (http://www.expasy.ch/sprot/ ) 使用者可以输入自己实验获得的分子序列, 或者从这 些数据库中来获取得到分子序列,再用到GCG的分析 程序进行分析。
Bioedit
是一个性能优良的免费的分子生物学 应用软件,可以对核酸序列和蛋白质序 列进行常规的分析操作,并提供了很多 网络程序的分析界面和接口。
/BioEdit/bi oedit.html
2.快速同源性数据库搜索工具
• Blast • Fasta • HMMer
第一步:输入序列文件。
第二步:设定比对的一些参数。
参数设定,选择保存结果文件的格式
在线的clustalw分析
EBI提供的在线clustalw服务
/clustalw/
更为详细的教程
可以在这里得到更多关于clustal的帮助:
Vector NTI
由Informax公司(现在已经归入 Invitrogen公司旗下)开发的一种高度 集成、功能齐全的分子生物学应用软件, 可以对DNA、蛋白质分子进行大量分析 和操作。
主要功能: 1.DNA序列的ORF、Motif、功能区搜索, 限制酶图谱,蛋白质翻译。 2.PCR引物、测序引物、杂交探针的设计和 评价。 3.DNA测序片断的拼接 4.同源比较和系统发育树构建 5.蛋白质结构预测:三维结构、化学键、 翻译后修饰位点、结构域等 6.模拟电泳:琼脂糖、PAGE
程序,这些独立的程序都实现特定的功能, 这些程序基本上包括了系统发生分析的所有 方面。 Phylip有多种不同平台的版本(包 括windows,Macintosh,DOS,Linux, Unix和OpenVMX)。
2.两种工作模式。
a.多序列比对模式。
b.剖面(profile)比对模式。
3.一个实际的例子。
多序列比对实例
输入文件的格式(fasta): >KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN…… >DMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK……. >KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN…… >DAF1_CAEEL QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD…… >1CSN HYKVGRRIGEGSFGVIFEGTNLLNN……
1.输入输出格式。
输入序列的格式比较灵活,可以是前面介绍过的 FASTA格式,还可以是PIR、SWISS-PROT、 GDE、Clustal、GCG/MSF、RSF等格式。 输出格式也可以选择,有ALN、GCG、PHYLIP 和NEXUS等,用户可以根据自己的需要选择合 适的输出格式。
Clustal的应用
GCG 软件包包括了超过130个独立的序列分析程序,大 致上可以分成以下12个类别: 1. Sequence Comparison 2. Database Searching and Retrieval 3.DNA/RNA Secondary Structure Prediction 4.Editing and Publication 5.Evolutionary Analysis 6.Fragment Assembly 7.Gene Finding and Pattern Recognition 8.Importing and Exporting 9.Mapping 10.Primer Selection 11.Protein Analysis 12.Translation
HMMER
HMMer 是一个采用隐马可夫模型 HMMs(Hidden Markov Models)来 识别不同基因之间的结构相似性程度的 工具。可以快速的在数据库中寻找与特 定基因具有一定相似性的基因结构。 /
3.多序列比对工具
• Clustal 基于渐进算法的多序列比对优化算法, 由Higgins D.G. 等开发。Clustlw, clustalx等。 • 其他:T_coffee
多序列比对的意义
• 用于描述一组序列之间的相似性关系, 以便了解一个基因家族的基本特征,寻 找motif,保守区域等。 • 用于描述一个同源基因之间的亲缘关系 的远近,应用到分子进化分析中。 • 其他应用,如构建profile,打分矩阵等。
多序列比对的方法
• 同源性分析中常常要通过多序列比对来 找出序列之间的相互关系,和blast的局 部匹配搜索不同,多序列比对大多都是 采用全局比对的算法。这样对于采用计 算机程序的自动多序列比对是一个非常 复杂且耗时的过程,特别是序列数目多, 且序列长的情况下。
主要功能: 1. Editseq,可以从键盘、数据库或数字序列 输入和编辑。 2. PrimerSelect,PCR引物和探针设计。 3. MapDraw,限制性位点分析和图谱绘制。 4. MegAlign,多个和成对蛋白或DNA序列比 对。 5. GeneMan,生物数据库和数据库检索。 6. Protean,蛋白结构分析。 7. SeqMan,序列装配和毗连(序列)群管理。
相关主题