当前位置:文档之家› clustalx的应用

clustalx的应用

利用clustalx 2.1对蛋白进行多序列比对目录1. 方法介绍1.1概念1.2理论基础1.3任务1.4目的2研究内容3. 工具3.1 clustalx简介3.2 clustalx 后台运作流程3.3 clustalx的下载3.4 clustalx菜单设置4.操作步骤4.1获取目标序列4.2执行比对4.3 treeview软件制作进化树5. 结果分析正文1. 方法介绍:多序列比对1.1 概念:多序列比对即通过多个核苷酸或氨基酸的序列进行比较,确定序列之间可能由于功能、结构或进化上的关联而形成的相似片段。

1.2 理论基础:1)生物学一个最基本的假设是地球上所有物种都有共同的祖先,从这个祖先开始以树状形式发展,通常称为生命之树。

2)基于序列比对的同源即具有共同祖先。

同源序列一般相似;相似可以用百分比来描述。

序列不一定是同源的,相似序列在进化上具有趋同性。

序列决定结构,结构决定功能。

3)现有的基因、蛋白质等携带生物学信息、具有生物学功能的分子都是由原有的分子演化而来;现有的基因及其他核酸序列,都是由已经存在的基因或其他序列经过复制、转移、合并、删减等方式形成的;不同物种的基因、蛋白质在结构、序列上的相似性与其进化上亲缘关系密切相关。

1.3 任务:发现序列之间的相似性,找出序列之间共同的区域,辨别序列之间的差异。

1.4 目的:通过“相似序列→相似的结构→相似的功能“来判别序列之间的同源性,进而推测序列之间的进化关系。

2. 研究内容:通过对人类、家鼠、大鼠和鸡体内BMP-2(bone morphogeneticprotein 2)即骨形态发生蛋白2的多序列比对得到的dnd结果文件来揭示在四种生物中的该蛋白的同源性。

3. 工具:clustalx 2.13.1 clustalx简介:Clustal是用来对核酸与蛋白序列进行多序列比对的软件,可以用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及在分子进化分析方面均有很大帮助。

Clustal包括Clustalw和Clustalx和Clustal omega。

Clustalw是命令行接口;Clustalx是一个图形用户界面;;Clustal omega是Clustal家族的最新补充,是在以前的版本基础上,提供了一个显著增长的可扩展性,使数以十万计的序列在只有几个小时内排列。

它也将使用多个处理器包含其中。

此报告仅介绍本地软件版clustalx,其操作界面简单,运行速度较快使其被广泛使用。

3.2 clustalx 后台运作流程:3.3 clustalx的下载:1)在浏览器地址栏输入clustal官方网站网址并进入;2)在右下角点击ClustalW/ClustalX并进入3)呈现的界面如下,点击EBI ftp sitej进入下载条目界面4)选择最新版本2.1,进入5)选择windowns版本的clustalx2.1,点击进行下载6)在弹出的下载窗口中选择保存位置7)完成下载3.4 clustalx菜单设置(因软件功能多样,此模块仅介绍与多序列比对相关的主要操作内容)输入序列的格式比较灵活,可以是FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式;输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。

1)打开clustalx软件,操作界面如下图所示。

上方有七个条目,分别是file(文件),edit(编辑),alignment(比对),tree(树状图),colors (颜色),quality(打分)和help(帮助)。

2)空白处的上方“mode”下可选择比对模式,有multiple alignment mode(多序列比对模式)和profile alignment file(剖面比对模式)。

我们做的一般选择多序列比对模式。

3)在mode右边的font(字体)下拉框中可根据需要选择字体大小4)上方工具栏点击file,出现的load sequence为载入序列,选择此载入方式的前提是要把比对的多条序列保存在一个TXT文件中,重复操作则覆盖上次文件;append sequence为添加序列,选择此载入方式即可把分开保存的序列文件分别载入到界面中;save sequence 为保存序列。

5)Edit下有针对已载入序列的各种编辑操作,“cut sequence”为剪切,”paste sequence” 为粘贴,”select all sequence”为选中全部,下面还有”clear sequence selection”清除所选序列,”clear range selection” 清除所选区域,”remove gaps”清除空位等操作6)alignment下有“do complete alignment“执行序列比对,”do guide tree only“只输出引导树,”alignment parameters“比对参数等,点击比对参数后,在右弹窗中可选择需要的比对参数,如”multiple alignment parameters“多序列比对参数。

7)点击multiple alignment parameters,弹出窗口如下所示gap opening 空位,右边框中输入打分值gap extension为扩展,右框中输入打分值protein weight matrix 为比对蛋白序列时选择的打分矩阵此处可载入自定义打分矩阵DNA weight matrix 为比对核苷酸序列时选择的打分矩阵8)以下为构建引导树的内容,因下文实例操作中用treeview构建进化树,此处引导树不再做介绍。

应注意的是,引导树不等同于进化树,引导树是clustalx软件在运行时知道比对的一个参照。

此处可选择draw tree 观看引导树。

9)在colors 下可选择设置序列颜色,可选black and white 设置黑白色,也可通过load color parameter file 上传自定义色彩文件,一般默认即可10)在quality下可以选择突出显示“show low-scoring segment“打分低的区段,“show exceptional residues”显示空位位点,也可选择“save column score to file”把比对得分以纵列形式保存成文件。

11)help中有关于软件操作的所有指导4.操作步骤4.1获取目标序列Homo sapiens 人类Mus musculus 家鼠 Rattus norvegicus 大鼠Gallus gallus 鸡以其中一条序列为例的序列下载过程:1)在浏览器中输入NCBI 的网址 并进入2)在下方搜索栏中选择“protein ”数据库,搜索关键词“bmp-2”3)点击搜索后出现以下界面,根据描述“Mus musculus ”打开此条目4)在出现的界面中选择“FASTA”格式显示。

5)以FASTA格式显示的序列如下图所示6)点击右上方的“send to”,选择下载FASTA格式的序列文件7)依次下载四条序列。

下载完成后可将四条序列保存在一个文件中,选择load载入软件;也可以分开保存,选择append载入软件。

文件中每条序列必须以“>”号和注释开头,序列部分则另起一行,其中注释部分就是软件操作过程中序列的标识。

必须把序列文件以英文命名并保存在clustalx所在的文件夹下,且此文件下所有文件名均需是英文的。

4.2执行比对1)打开软件,选择append sequence2)选中所选序列,依次载入后,调整字体大小后如下图所示。

序列左边是物种名称,序列的不同颜色代表不同氨基酸残基(help中有详细描述)。

序列比对参数4)选择默认参数值5)在alignment下选择do complete alignment执行序列比对操作6)弹出的窗口中可以默认或选择aln文件和dnd文件的存放位置。

默认的话则保存在软件的文件夹下。

aln文件打开后如图所示这个文件是默认输出,可以转换成各种格式,而且很多软件都支持这种格式。

Aln文件可以用于保存序列比对结果,可用专门的多序列比对着色软件如着色,并进一步做分析等操作。

dnd文件是构建进化树的文件,只能用构建进化树的软件打开。

是根据两两序列相似值构建的一个指导后面多重联配的启发树。

不能做进化分析。

进化分析要考虑的所有同源位点的一个综合效应,因此应该用.aln格式文件专门做进化分析。

7)默认后保存的文件如下图所示,保存在软件的文件夹下8)保存竖列的打分文件,选中全部序列,选择“quality”下的“save column to file”保存,默认保存在软件的文件夹下,如下图所示9)打开保存的打分文件10)打开Aln 文件,如下图中,“*”表示在所选打分矩阵下,该位置完全保守;“:”表示该位置的残基极相似,打分大于0.8;“.”表示该位置残基相似度较“:”低,打分低于0.8。

Aln 文件可以用于保存序列比对结果,可用专门的多序列比对着色软件如着色,并进一步做分析等操作。

4.3treeview 软件制作进化树1)treeview软件下载网站很多,Treeview软件可以将多序列比对结果以进化树的形式展示,其默认前提是所有蛋白源自同一祖先。

枝的长度代表进化距离。

在其中两种树状图的左下角有标尺,可根据它来计算进化距离。

主要的操作窗口如下图所示。

2)点击file载入,显示的选项中自动检索出了本地的dnd文件,点击即可得到进化树。

3)载入序列后默认已第二种树形图显示,也可选择其他几种树形图显示。

右侧注释是物种名称,图形和字体的大小均可调整,注释也可修改。

上图中的0.1及下方的横线代表了该进化树上的相同距离所代表的数值,是对进化距离的一个定量显示。

4)点击file下的save as graphic 可将进化树保存成emf图形文件,如下图所示5. 结果分析1)从执行序列比对操作后的软件界面来看:原来的序列中某些位置插入了空位,上方有“*”,“:”,“.”等符号。

“*”集中出现在比对后第241-600个残基的区域,该区域保守度较高,说明这段区域很可能决定相近的功能。

把这段区域的序列拷贝保存后可进入profile等网站中搜索或预测相应的功能。

2)从打分文件来看:残基相同时大氛围100,100集中出现的位置与软件界面显示的结果是一致的。

3)从生成的aln文件来看: aln文件将软件界面的图形结果用字符保存,可以更直观地看到保守区域。

4)从进化树文件来看:从图上可以看出,从进化的初期,人类、鸡和两种鼠的BMP-2就朝着不同的进化方向进化。

相关主题