系统发育树
定义:根据信息位点提供的各序列间的替换情况, 在所有可能的树中寻找含最小替换数的树的方法。
所谓的信息位点指那些至少存在2个不同序列且每 个不同序列至少出现两次的位点。
4个类群共 有3种进化 树,每个序 列有9个位 点,序列对 比得到:5、 7、9为信息 位点,分别 计算3种进 化树信息位
点替换数得
系统发育树
民大生科
内容提要
一.系统发育树的介绍 二.系统发育树的构建方法及原理 三.系统发育树的构建软件
一.系统发育树的介绍
1.系统发育树的定义:
在研究生物进化和系统分类中,常用一 种类似树状分支的图形来概括各种(类) 生物之间的亲缘关系,这种树状分支的图 形成为系统发育树(phylogenetic tree)。
计算距离软件:DNADIST-计算所输入核酸序列间的距离。 PROTDIST-计算蛋白质序列的距离。
从而获得距离矩阵。
一种距离矩阵:
由进化距离构建进化树的方法常见有: 1.Fitch-Margoliash Method(FM法) 2. Neighbor-Joining Method (NJ法/邻接法) 3. Neighbors Relaton Method(邻居关系法) 4.Unweighted Pair Group Method (UPGMA 法)
节点上的数字是Bootstrap value,即自展支持率,或者自展值, 是用来检验进化树分支可信度的。
自展值,是用来检验你所计算的进化树分支可信度的。简单地讲
就是把序列的位点都重排,重排后的序列再用相同的办法构树,
如果原来树的分枝在重排后构的树中也出现了,就给这个分枝打 上一分,如果没出现就给0分,这样经过你给定的repetitions次 (至少1000次)重排构树打分后,每个分枝就都得出分值,计算 机会给你换算成bootstrap值。重排的序列有很多组合,值越小说 明分枝的可信度越低,最好根据数据的情况选用不同的构树方法 和模型。
得到距离矩阵后,输入PHYLIP软件中距离分析程序即 可估计系统树:
1.KITSCH用于F-M法估计系统树。 2.NEIGHBOR用于邻接法或UPGMA法来估计系统发 育树。
系统发育树构建方法三——最大似然法
最大似然法是由样本观测值估计总体参数的一 种常用方法。最大似然法是选择最高概率的树。
优点:对多重序列排列的每一列进行分析,将 考虑所有可能的树,对其序列变化数进行分析,变 化数越多则树越不像,类似最大简约法。正是如此, 其可以通过不同谱系的突变率差异来评价树,可以 用于探索远源序列的关系,因而强于最大简约法。
缺点:计算过于复杂!
PHYLIP软件包中包括2个最大似然分析程序: 1.DNAML:用于对核苷酸序列估计系统发育关系。 2.DNAMLK:与DNAML不同在于假设存在分子钟(分 支上进化速率恒定)。
三.系统发育树的构建软件
1.PHYLIP 是一个包含了大约30个程序的软件,基本囊括了系统 发育分析的所有方面,而且是免费软件,如上面提到 的DNADIST和PROTDIST。 其处理DNA序列的软件和处理蛋白质序列的软件不同: 用最大节约法构建进化树时,DNA序列采用DNADIST 软件,蛋白质采用PROTPARS软件;用距离法构建树 时,DNA采用DNADIST软件,蛋白质采用PROTDIST 软件;用最大似然法构建树时,DNA采用DNAML、 DNAMLK,蛋白质采用PROTML或PROTMLK软件。
到最小替换
数的一组为 系统发育树。
优点:适用于序列非常相似以及序列数目 较小的发育树构建。
缺点:需检查所有与一组序列相关的树, 非常耗时,当数据中包括大量序列或者序列 变异较大时不适用。
系统发育树构建方法二——距离法。
定义:距离法又称距离矩阵法,首先通过各个物种之间的 比较,根据一定的假设(进化距离模型)推导得出分类群 之间的进化距离,构建一个进化距离矩阵。进化树的构建 则是基于这个矩阵中的进化距离关系 。
1/2节点与2之间的分支长度相等,
则表明物种进化是同一速率的。
二.系统发育树的构建方法及原理
步骤:
1.选择 一个相 关序列
2.得到 多个序 列比对
3.是否具有显 是 著的序列相似 性?
最大简约法
三
集
否
大
4.是否可清晰
是 距离法
方
分辨序列相似 性? 否
法
最大似然法
1.相关序列:可以是DNA或蛋白质序列:每一类 型 有不同的程序选项,作为进化相关性指标。
2.PAUP 为发育系统提供一个简单的,带有菜单页面程序。 PAUP3只建立于最大简约法构建发育树, PAUP4可以针对核苷酸进行距离方法和最大似然 法进行建树。
在构建发育树时,相同的数据用不同的系统发育软件 构建的发育树可能是不同的,在实际中处理数据时, 比较多种方法构建进化树后做出分析比只用一种构建 方法更有说服力。
2.系统发育树分类
共同祖先
有
无
根
根1
3
1
2
3
4
树
共同祖先
树 2
4
1
4
二者区别: 有根树是具有方向的树,包含唯一
的节点,将其作为树中所有物种的共 同祖先,反映了树上物种或基因的时 间顺序。
无根树只是指明了种属的相互关系, 没有确认共同祖先或进化途径。
3.系统发育树的结构及含义
节 点
根
树 枝
① 根用来表示共同的祖先,由
2.序列比对:通过在序列中搜索一系列单个性状或 性状模式来比较2个或多个序列的方法。
3.相似性:在序列比对中,同一或者相似性状置于 一列,非同一性状作为一个错配或者对应一个间 隔,得到一个最优排列,使得同一或相似性状垂 直对齐。在此条件下,容易排列的序列被认为是 相似的。
系统发育树构建方法一——最大简约法。
该点通过唯一途径可产生其
1
他节点;
② 节点表示序列1和2、3和4分
别来自同一个祖先序列,1/2
和3/4来源于最低水平的祖先。
2
③ 树枝长度表示节点到下一水
平分离前出现的序列变化数
或者该分枝进化过程中变化
3
的程度。 所以系统发育树所估计的是1/2节
4
点与1或2之间序列变化数,若 1/2节点与1之间的分支长度和