实验七微生物分子生态学常用软件使用方法微生物生态学研究中测序已经成为一项常规的必不可少的分析手段,实验后常常会得到大量的核酸序列,有的是细菌基因组上随机的序列片断,有的是16S rRNA基因的克隆文库,有的是功能基因序列等等,如此海量的序列数据,需要进行正确、快速和有效的分析,熟练掌握各种生物学软件的使用方法就显得尤为重要。
这里我们主要介绍如何进行序列同源性分析,如何构建系统进化树,如何对克隆文库进行分析,如何对DNA指纹图谱进行比较分析,介绍相关软件的使用方法。
一、实验原理这里简要介绍序列数据分析过程中用到的软件:BLAST是NCBI(the National Center for Biotechnology Information)的一项服务。
BLAST在网络上可以直接使用,我们可以提交序列,并与NCBI数据库(GenBank+EMBL+DDBJ+PDB sequences)进行比对,之后会将一系列的结果返回给用户。
GeneTool可以进行核酸分析,本文中主要用于去除载体序列。
ClustalX 1.8:广泛使用的多序列比对程序,在ClustalW多序列比对程序的基础上增加了图形用户界面。
输入为多序列的Fasta格式文件,进行多序列全局比对生成结果的同时,在指定文件夹生成“.dnd”和“.aln”格式文件。
PhyloDraw 0.8:构建进化树的绘图工具,它支持多种多序列比对软件的Multiple Alignment 结果。
本实验采用ClustalX进行多序列比对,生成“.dnd”格式的比对文件,最后用PhyloDraw 画出序列进化树。
它支持Unrooted tree(无根树)、Rooted tree(有根树)、Radial tree(放射状树)、Rectangle cladogram(矩形进化分支树)、Slated cladogram和Phylogram(序列进化树)。
这些都是不同的树型,结果是一致的。
下面简要说明Blast、Fasta、Cluastx、PhyloDraw等进行序列比对以及构建进化树的算法等,作为深入研究的理论基础。
DNA序列的比对是生物信息学的基础之一,寻找序列相似性的过程称为序列比对。
系统进化推断是通过生物间可观测的性质来建立物种之间进化关系假说的方法。
我们的目的是构建系统进化树,它已成为相似性比对为基础表示进化关系的很直观的方法。
系统进化树是严格的二叉树,二叉分支假设极大的简化了建树算法。
在系统进化树中,序列之间的进化距离可以作为树枝长度的度量。
构建系统进化树的方法很多,主要有以下四种方法:(1)基于成对距离比对的系统进化树:这种方法能够生成有根的树,这种方法首先通过定义每一对序列之间的距离矩阵初始化,然后按照距离分组,最后建立从树枝到树根的树。
(2)基于相邻连接的系统进化树:这种方法不仅根据距离矩阵搜索最小的成对距离,而且会搜索使整个树高最小的相邻集,最适合于进化距离较短的情况。
(3)基于最大节约法的系统进化树:这种方法是从一系列可能的树中找到一个需要最少的核苷酸替换就可以解释所看到差异的树。
(4)基于最大似然法的系统进化树:这是一种概率法,它通过在信息位点的每种可能的进化改变的概率排列并使树的总概率最大化来寻找最佳选择。
最常见的UPGMA ,它的全称是使用算数平均数的未加权对群法(Unweighted Pair Group Method with Arithmetic),该算法属于基于成对距离比对生成系统进化树算法。
z UPGMA 算法描述:初始化过程 :(1) 为每个物种建立一个群(Cluster);(2) 每个群的大小赋初值n i =1,即只包括一个物种;(3) 计算任意两个群之间的距离ij D ,采用二维数组存储该距离矩阵;(4) 输出树为T ,为每个物种分配一个叶结点。
循环过程:每一个循环都能将将其中两个群合成为一个群(1) 遍历所有距离值,找出具有最近距离D ij 的两个群i 和j ;(2) 创建一个新的群(ij),它共有j i (ij)n n n +=个物种;(3) 连接树上的i 和j 到一个新的结点,该结点对应于新的群(ij),连接i 和j 的树枝长度为2,ji D ;(4) 按照下面公式计算从新的群到其它每个群的距离(不包括i 和j )k j ji j k i j i i D n n n D n n n k ij D ,,()(),(+++= (5) 删除距离矩阵中i 和j 的记录,添加新的记录D (ij),k(6) 返回1直到只剩下一个群;综上所述,该算法主要思想是首先将每个序列被分配到自己的群中,从树的零高度开始这个序列的分支,找出距离最近的两个群合并为一个群,直到剩下一个群为之。
树枝的长度反应两者之间的距离,即进化时间的长短,构造的顺序是从树枝到树根逐渐构造。
二、实验目的分析实验数据,大量的序列数据信息分析整理,进行同源性比较、构建进化树、分析指纹图谱的相似性等。
三、实验材料(1)以本室的序列数据为例,介绍相关软件的使用方法。
(2)生物学软件:如上列举的软件。
四、操作步骤4.1 序列分析及进化树构建4.1.1. 去除载体序列,目标序列经克隆(以克隆到 Promega 公司生产的pGEM-T载体为例)通用引物(T7/SP6)测序后,测序结果中带有部分载体序列,在进行序列分析以前,要首先去除载体序列,可以使用DNAMAN和GeneTool等等,这里以GeneTool为例进行说明。
下图是GeneTool软件的主界面:将需要去载体序列的文件(Raw Sequence)打开,搜索EcoR I 酶切位点 GAATTC (pGEM-T easy 载体两端均有该位点),以下图为例,上游和下游的序列均用蓝色标出从上游位点向后第5个碱基开始,下游位点向前第11个碱基开始为我们的目标片断,选中之后输出,保存为FASTA格式的”TXT”文件,这样就完成了我们去载体序列的过程。
4.1.2. 到GenBank数据库中进行Blastn分析, 找到其Closest Relatives:打开/BLAST/如下图所示:选择做Nucleotide-nucleotide BLAST (Blastn)弹出界面:将要比对的序列填入Search中,下面以GenBank中公开的NC_003045序列(Bovine coronavirus, complete genome)为例进行分析。
参数可以采用默认值,之后点击BLAST,以可以得到下图的结果:其中Query = (31,028 letters)表示我们序列全长为31028bp,查询的ID为1089336352-4777-118277223650.BLASTQ4,点击Format开始搜索GenBank数据库,采用Blast的方法,并将结果返回给用户,下表显示了GenBank 中和序列NC_003045做Blast之后得到的序列,从上到下同源性降低。
下图表示AF391541.1序列和NC_003045序列的配对情况。
我们可以将排在最前面的(1-2条)序列下载下来,这就是与测许序列亲缘关系最近的序列信息(Closest Relatives)。
值得注意的是,有时候序列之间是反向匹配的,我们需要将测许序列顺过来,使其方向从小到大,这样就完成了第二步——在数据库中寻找同源序列。
4.1.3. 通过Clustalx软件和PhyloDraw构建系统进化树。
第二步中,我们可以将一个文库中测序得到的每个序列都到GenBank中找到与其相似的同源性最高的序列,用这些序列进行构建进化树时,进化树中将包含大量已知序列,可以作为目标序列进化地位的参考。
在下图的范例中,我们L-46c、L-33c、L-18、L-67、L-92、L-ASa、L-ASb、L-46d、L-33d均为我们实验室测序得到的序列,有了从GenBank中得到的亲缘关系较近的序列,生成的进化树中能够一目了然地看到这些未知序列的分类地位。
以下介绍如何使用ClustalX软件和PhyloDraw构建系统进化树首先,将所有的要构建系统进化树的序列存储到一个文件中,采用FASTA格式,FASTA 格式又称为Pearson格式,这是比较简单而使用最多的序列格式。
序列文件的第一行是由大于符号开头的任意文字说明,主要为标记序列用,从第二行开始为序列本身。
碱基名称大小写均可,如下所示:> sequence1acttaaaaagattttctatctacggatagttagctctttttctagaccttgtctactcaattcaactaaacagaaattttgtccttccttccggccgcatgttcatgctgctggaagctg> sequence2acttaaaaagattttctatctacggatagttagctctttttctagaccttgtctactcaattcaactaaacagaaattttgtccttccttccggccgcatgttcatgctgctggaagctg> sequence3acttaaaaagattttctatctacggatagttagctctttttctagaccttgtctactcaattcaactaaacagaaattttgtccttccttccggccgcatgttcatgctgctggaagctg其次,使用ClustalX打开这个存储多个序列的文件之后做Alignment,将输出“.dnd”格式的文件作为PhyloDraw的输入。
最后,使用PhyloDraw打开上一步生成的“.dnd”文件,可以有不同的树型供选择:Unrooted tree Rooted treeRadial tree Phylogram通过上面的去除载体序列,到GenBank下载Closest relatives序列,以及最后的构建进化树三个步骤,就完成了对序列进行分析的一个主要工作。
4.2 使用RDP在线分析数据及构建进化树RDP(Ribosomal Database Project)主要是提供关于核糖体相关的序列数据,它可以实现在线的构建进化树,序列比对等。
实验中得到的16S rRNA序列信息可以在线使用RDP 进行分析。
下面简要介绍如何在线使用RDP分析序列并构建系统进化树。
打开/cgis/phylip.cgi这是一个通过web接口提供Phylip和weighbor 服务的程序。
我们可以使用这个程序来创建距离矩阵(相似性矩阵)和构建系统进化树。
我们可以使用自己的序列和RDP数据库中序列结合在一起构建系统进化树,步骤如下:1.编辑要构建进化树的数据集合Edit Data Set:首先将序列上传到RDP中,点击Edit Data set,之后,可以通过browse打开本地序列,见下面的左图。