当前位置:文档之家› 序列比对方法

序列比对方法

序列对齐(sequence alignment)的目的是通过两个或多个核酸序列或蛋白质序列进行对齐,并将其中相似的结构区域突出显示。

通过比较未知序列与已知序列(尤其是功能和结构已知的序列)之间的同源性,往往可以很容易地预测未知序列的功能。

1、两两对齐分析
国际互联网上序列两两对齐资源有:
①ALIGN(http://genome.eerie.fr/fasta/align-query.html),对用户所提交的两条序列进行优化对齐,允许选择不同的记分矩阵,但是不允许空位罚分。

②Align(http://www.mips.biochem.mpg.de/mips/programs/aligh.html;
http://www.mips.biochem.mpg.de/)只允许对数据库的已有记录进行两两比对,不接受用户所提交的序列。

③Bl2Seq(/gorf/bl2.htm)可对任意两条序列进行两两对齐,具有Blast软件的所有功能。

2、多重序列对齐分析
国际互联网上多重序列对齐程序有:
①ClustalW/X。

最为著名的序列多重对齐软件包。

用户可自行下载进行数据分析。

接受多种输入格式,包括FASTA、EMBL、SWISS-PROT、PIR、GCG/MSF等,但所有输入序列必须在同一文件中。

如果输入序列中的非空格号85%以上为A、C、G、T、U、N,判定为核酸序列,否则作为蛋白质序列计算。

但核酸和蛋白质序列不能在同一文件中。

网址:/cgi-bin/newclustalw.pl;
/multi-align/multi-align.html;
ftp:///pub/software;
②Match-Box。

同时考虑序列数据和氨基酸性质进行序列多重对齐分析。

网址:http://www.fundp.ac.be/sciences/biologie/bms/matchbox_submit.html
③BCM服务器。

Baylor College of Medicine,BCM launcher。

网址:/multi-align/multi-align.html
④CINEMA。

彩色交互式多序列对齐编辑器。

网址:/dbbrowser/CINEMA2.1/
3、序列对库的对齐检索分析
目前单条序列对库检索中使用最广泛的程序是FASTA和BLAST。

BLASTP是用蛋白质序列检索蛋白质数据库;
BLASTN用核酸序列检索核酸数据库;
BLASTX用核酸序列检索蛋白质序列数据库;
TBLASTN用蛋白质序列检索核酸序列数据库(基于所有可能的六个不同相位编码序列);TBLASTX用核酸序列检索核酸序列数据库(基于所有可能的六个不同相位编码序列);FASTA用蛋白质序列检索蛋白质序列数据库或用核酸序列检索核酸数据库;
TFASTA用蛋白质序列检索核酸序列数据库(基于所有可能的六个不同相位编码序列);FAXTX用核酸序列检索核酸序列数据库(基于所有可能的六个不同相位编码序列)。

BLAST只能匹配连续的序列,缺失片段将被分段显示。

许多其他程序如BEAUTY可直观地显示BLAST的输出结果。

BEAUTY为增强型的BLAST搜索服务器,对未知序列提供更多的功能提示信息。

网址::9331/seq-search/protein-search.html。

当FASTA和BLAST均不能发现显著性匹配时,可采用BLITZ。

BLITZ非常敏感,但运行慢。

一般在FASTA和BLAST运行不能得到理想结果时采用。

BLITZ网址:/searches/blitz.html;/bic_sw
为了便于对序列对齐结果进一步分析,已出现一批与BLAST和FASTA有关的后处理程序,包括分析结果的可视化和基于分析结果的二次数据提取与加工等。

如:
Blixem:http://www.cgr.ki.se/cgr/groups/sonnhammer/Blixem.html;
MSPcrunch:http://www.cgr.ki.se/groups/sonnhammer/MSPcrunch.html;
Visual BLAST,Visual FASTA:/pdurand/;
Octopus:/pdurand/htmlDoc/software/octopus/,为Visual BLAST和Visual FASTA合并后的版本,是非常好的序列对齐结果观察软件,包括疏水性分析、多序列编辑等。

4、同源性有效的意义判据
蛋白质序列对齐分析得到的结论是:如果蛋白质序列之间至少80个氨基酸左右的区域中具有25%或更高的同源性,那么它们具有相类似的生物学性质。

在此标准之下,两条蛋白质可能具有相似的功能,也可能是性质上完全不同的蛋白质。

核酸序列更为复杂,由于DNA编码的冗余特点,编码区的DNA序列在进行对齐之前可以先被手工翻译或者使用BlastX等程序翻译为蛋白质序列进行分析。

当拟分析的核酸序列不是编码区时,序列一致性是否具有生物学意义上的显著性则难以得出明确结论。

经验显示,DNA序列具有75%以上的同源性才可能
具有潜在的生物学意义。

建议做序列比对的时候,看看这个文献
Mol Biol Evol. 2007 Nov;24(11):2433-42.
Mind the gaps: evidence of bias in estimates of multiple sequence alignments. Golubchik T, Wise MJ, Easteal S, Jermiin LS.。

相关主题