当前位置:
文档之家› 生物信息学-第四章-多序列比对与分子进化分析
生物信息学-第四章-多序列比对与分子进化分析
Clustal使用方法
Clustal:目前被最广泛应用的 MSA 方法
可在线分析
可在本地计算机运行 序列输入、输出格式
Input FASTA
NBRF/PIR EMBL/SWISSPROT ALN GCG/MSF GCG9/RSF GDE
>sequence 1 ATTGCAGTTCGCA … … >sequence 2 ATAGCACATCGCA… … >sequence 3 ATGCCACTCCGCC… …
10 3 2 5
C B
2
D
outgroup 外群、外围支
系统发育树构建步骤
多序列比对(自动比对、手工校正)
最大简约法 (maximum parsimony, MP) 距离法 选择建树方法(替代模型) (distance) 最大似然法 (maximum likelihood, ML) 贝叶斯法 (Bayesian inference) UPGMA
多序列比对的应用: •系统发育分析(phylogenetic analysis) •结构预测(structure prediction) •序列基序鉴定(sequence motif identification) •功能预测(function prediction) ClustalW/ClustalX:一种全局的多序列 比对程序,可以用来绘制亲缘树,分析进化 关系。 MEGA5——分子进化遗传分析软件
比对参数设置
两两比对参数
多序列比对参数
点击进行多序列比对
比对结果 “*”、“:”、“.” 和空格依次代表改位点的序列一致性由高到低
第四步:比对完成,选择结果文件的保存格式
可进一步对排列好的序列进行修饰(1)
Boxshade 突出相同或相似位点 (/software/BOX_form.html)
guinea pig PQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCN
Bring the greatest number of similar characters into the same column of the alignment
为什么要做MSA?
研究系统发生的方法
经典进化生物学:
比较:形态、生理结构、化石
分子进化生物学:
比较DNA和蛋白质序列
系统发生树术语
分支 Branch 末端节点
可以是物种 B ,群体,或 者蛋白质、 C DNA、RNA D 分子等
OTU A
节点 Node
祖先节点/树 根
Root
内部节点/分歧点
该分支可能的祖先
E
= ((A, (B,Байду номын сангаас)), (D, E))
Bioinformatics: Sequence and Genome Analysis, 2nd edition, by David W. Mount. p254 /cgi/content/full/2008/5/pdb.ip49
MSA是构建分子进化树的关键步骤 MSA程序可对任何序列进行比对,选择 什么样的序列进行比对非常重要!!
ClustalX窗口
点击File下拉菜单中 Load sequences选项, 打开序列文件17-RNASE1.fasta.txt
注意!ClustalX打开文件时文件所在路径 不能包含中文,否则会出现错误!
打开后的界面
可在Alignment下拉菜单中的Alignment Parameters中设定各个参数
用于描述一组序列之间的相似性关系,以便了解一个基因家族 的基本特征,寻找motif,保守区域等。用于预测新序列的二 级和三级结构,进而推测其生物学功能。
Human Hox genes
为什么要做MSA?
用于描述同源序列之间的亲缘关系的远近,应用到分子进化 分析中。是构建分子进化树的基础。
Gene tree
目标序列
参数设定
Jalview 结果下载
打开Jalview 图形显示界面
结果文件
点击Start Jalview打开java程序窗口
上机实习3:本地运行 ClustalX
17-RNASE1.fasta • 多序列比对
– (Multiple Alignment)
在 C:\zcni\shixi1\Clustalx2 文件夹下,找到clustalx.exe 双击打开
系统发生树术语
Rooted tree vs. Unrooted tree
有 根 树
无 A 根 树 B
C
D
two major ways to root trees:
By midpoint or distance
A
d (A,D) = 10 + 3 + 5 = 18 Midpoint = 18 / 2 = 9
邻近法 (Neighbor-joining, NJ)
最小进化法 (minimum evolution)
建立进化树 进化树评估
统计分析 Bootstrap Likelihood Ratio Test ……
Choosing a Method for Phylogenetic Prediction
Molecular Biology and Evolution 2005 22(3):792-802
在“Output layout”和“Output file or device”栏选择
修饰后的比对结果
可进一步对排列好的序列进行修饰(3) GeneDoc
/gfx/genedoc
File – Import
选择输入文件的 格式(如ALN)
修饰排列结果
2. 系统发生分析(Phylogenetic analysis)
a b
A B
Species tree
c
C
We often assume that gene trees give us species trees
注意概念:Paralogy(旁系同源/并系同源)& Orthology(直系同源)
怎么做MSA?
动态规划算法(dynamic programming):MSA 改进算法(启发式算法):
下载“Phylip tree file”(ph文件 ) 用TreeView软件打开上述文件 可以不同格式展示进化树(1、2、3)
分析基因或蛋白质的进化关系
系统发生(进化)树(phylogenetic tree)
A tree showing the evolutionary relationships among various biological species or other entities that are believed to have a common ancestor.
可进一步对排列好的序列进行修饰(2)
ESPript 多种修饰 功能,突出相同或相似位点 http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi 在EBI ClustalW结果网页下载“Alignment file”(ALN文件)
在ESPript分析网页“Aligned Sequences”栏上载ALN文件
ClustalW/X的运行
• 本地运行 – 命令行操作的Clustal W(linux & windows) – 窗口化操作的ClustalX(windows) 下载页面:ftp:///pub/software/ • 欧洲生物学中心(EBI)还提供了Clustal W的网上运 行服务: /Tools/msa/clustalw2/
用于构建进化树的序列必须是同源序列
分子进化树构建(ClustalW)
EBI的ClustalW分析网页 PHYLOGENETIC TREE栏目选择tree type 输入比对后的序列(或上载ALN文件)
页面下方 显示Cladogram Tree
点击“Show as Phylogram Tree”展示Phylogram Tree
Output ALN
NBRF/PIR GCG/MSF PHYLIP NEXUS GDE/FASTA
Clustal W/X算法基础
两两比对 构建距离矩阵
构建指导树 (guide tree)
将距离最近的两条 序列用动态规划的 算法进行比对; “渐进”的加上其 他的序列
多序列比对的目的
• 从物种的一些分子特性出发,从而了 解物种之间的生物系统发生的关系。 • 通过序列同源性的比较进而了解基因 的进化以及生物系统发生的内在规律。
在EBI ClustalW结果网页复制序列比对结果
在“Boxshade”网页粘贴序列,在“Input sequence format”栏目选择“ALN”,在“Output format”栏 目选择“RTF_new”
在结果网页点击“here is your output number 1”
修饰过的排列结果
Newick format
HTU
系统发生树术语
A clade(进化支) is a group of organisms that includes an ancestor and all descendents of that ancestor. 分支树
Cladogram
Taxon B
Taxon C Taxon A Taxon D
monkey
dog hamster bovine
PQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
LQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCN PQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCN PQVGALELAGGPGAGG-----LEGPPQKRGIVEQCCASVCSLYQLENYCN