当前位置:文档之家› Clustalx_实验指南(一步一步很详细)

Clustalx_实验指南(一步一步很详细)

实验三:多条序列比对——Clustalx
(一)ClustalX
Clustal是一种利用渐近法(progressive alignment)进行多条序列比对的软件。

即从多条序列中最相似(距离最近)的两条序列开始比对,按照各个序列在进化树上的位置,由近及远的将其它序列依次加入到最终的比对结果。

(Figure 3.1)
/
1.安装clustalx程序。

双击安装clustalx-2.0.12-win.msi.exe文件到自己的电脑上。

也可从/download/current/下载,列表中的倒数第二个文件。

clustalx-2.0.12-win.msi
Figure 3.1 clustal 算法
2.准备要比对的序列
请查找至少存在于5个物种中的同源序列(核酸或蛋白质皆可),并保存为fasta格式,存为文本文件(所有的序列请粘贴到同一个文本文件中)。

选择NM、XM或NP打头的序列,不要选择NC或NW打头的序列,那是全基因组序列。

做法可参照邮箱中的preparations for practice3.doc文件。

3.打开clustalX程序
开始菜单-程序-clustalX2- clustalX2
4.载入序列
点最上方的File菜单,选择Load Sequence-选择你刚保存的序列文件,点打开。

在左侧窗口里是fasta格式序列的标识号,取自序列第一行“>”后的字符。

(Figure 3.2) 注意:ClustalX程序无法识别汉字,无法识别带空位的文件夹名,如 my document。

各位同学保存的序列文件不要保存在桌面上或带汉字的文件夹中,推荐保存在D盘根目录下。

常见文件打开错误原因:
1.序列格式有问题,非正确的fasta格式。

2.文件中有序列重复粘贴。

TIPS: 想要方便识别序列所属物种,可在每条序列“>”后输入物种名,加空位即可。

EXAMPLE:原格式:>gi|262050536|ref|NM_002218.4| Homo sapiens inter-alpha (globulin) inhibitor H4 (plasma Kallikrein-sensitive glycoprotein) (ITIH4), transcript variant 1, mRNA
改为:>human gi|262050536|ref|NM_002218.4| Homo sapiens inter-alpha (globulin) inhibitor H4 (plasma Kallikrein-sensitive glycoprotein) (ITIH4), transcript variant 1, mRNA
Figure 3.2 载入序列
5.比对参数的选择
可以对两条序列比对的参数和多条序列比对的参数进行设置。

a.两条序列比对的参数设置
点击Alilgnment菜单,选择Alignment Parameters,再选择Pairwise Alignment Parameters,得到Figure 3.3.首先可以选择比对的效果,是slow/accurate 还是fast/approximate。

第一种模式采用的是动态规划算法进行比对的,第二种模式采用的是启发式的算法。

除非序列非常长,一般采用第一种模式。

可以选择空位罚分系统,要使用的DNA或蛋白质替换矩阵,也可以自己上传某个替换矩阵进行比对。

Figure 3.3 Pairwise Alignment Parameters
b.多条序列比对参数设置
点击Alilgnment菜单,选择Alignment Parameters,再选择Multiple Alignment Parameters,得到Figure 3.4.
Figure 3.4 Multiple Alignment Parameters
Delay divergent sequence是指当两条序列的差异大于某个值(百分比)的时候,这两条序列的比对将推迟进行,它们的比对结果会在最后加入到最终的多条序列比对结果。

DNA
transition Weight等于0的时候,程序将转换(transition)当作错配(mismatch)看待,等于1的时候,将转换(transition)当作颠换(transversion)看待。

当参与比对的序列差异较大时,DNA transition Weight应该选择的小些(接近0),如果参与比对的序列差异较小时,DNA transition Weight可选择的大些(接近1)。

6.更改输出格式
点击Alignment菜单,选择Output Format Options,页面如Figure 3.5 。

默认的是输出clustal format,如果需要其它格式,可在复选框里打勾。

PHYLIP格式是利用PHYLIP软件进行建树时,需要输入的格式,我们将在实验6系统发育树构建中用到。

Figure 3.5 输出格式选项
7.进行比对
点击Aliglnment菜单,选择Do Complete Alignment.此时出现一个对话框,提示你比对结果保存的位置,你在上一步选择了多少种输出格式,这里就会给出多少个文件的路径。

选择好了点OK即可。

要得到理想的比对结果,你可能需要选择不同的参数,进行多次比对,最后再对各种比对结果进行分析,选择哪个是最合理的结果(the result making biological sense)。

比对结束后生成的aln文件是多条序列比对的结果,可以用记事本打开浏览(Figure 3.6)。

在某一列比对结果下方如果出现*,说明这列是完全匹配。

dnd文件是比对过程中生成的进化树,可以用treeview(压缩包中的treev32.rar文件)打开浏览(Figure 3.7)。

Figure 3.6 记事本打开生成的aln文件
Figure 3.7 Treeview打开dnd文件
8.迭代比对
如果序列比对结果不理想,可以采用迭代选项,多次迭代寻找最佳比对结果。

点击Alignment菜单,选择iteration,选择iterate each alignment step或iterate final alignment.
然后再点击Aliglnment菜单,选择Do Complete Alignment进行比对。

9.概型(Profile)比对模式
以上介绍的都是Multiple alignment Mode,ClustalX还提供了一个概型比对模式,在菜单栏下方选择Profile Alignment Mode,可以对两个比对结果(alignment, termed profile here)进行再比对,或将一条序列与一个比对结果(profile)进行比对。

(Figure 3.8)还
可以利用二级结构信息指导多条序列比对。

Figure 3.8 Profile Alignment Mode
(二)Treeview
Clustalx产生的guide tree(即后缀为dnd文件),可以通过treeview软件浏览。

解压缩并安装treev32.rar文件。

双击后缀为dnd文件,选择treeview程序打开即可。

其它不详之处请参考clustalx_help.html或clustalx.pdf两个文件。

作业:
1.Clustalx是多条序列比对软件,为什么需要设置两条序列比对的参数?
2.利用entrez或srs搜索来自于不同物种的同源序列(othologs),利用clustalX进行比对,
给出所选序列简要信息(fasta格式第一行),比对所用的参数,比对过程中产生的guide
tree(dnd文件),并分析比对结果(序列之间相似度关系,保守位点所在位置等)。

相关主题