系统发育树的构建-lxf
2.长枝吸引(Long-branch Attraction,LBA) 克服长枝吸引的方法:
1.排除法
去除序列中受选择压力较少的位点
去除分类群中进化速率较快的长枝分类元
2.打断长枝法 增加与长枝分类元关系较近的分类元进行系统发育分析, 以打断 长枝。多数情况下, 这种方法能够避免形成长枝吸引。
3.使用多种建树方法 NJ 和MP容易造成长枝吸引,改ML或bayesin 可改善。
构树原理:将系统的拓扑结构、分枝长度、进化模型参数等的全部或部分作为 需要估计的参数θ,在给定的数据集和进化模型的基础上,用最大似然法的标 准——似然值最大化来估计这些参数。
用最大似然法建树时,先选择一个适合数据集的进化模型,然后对指定拓扑结 构的一棵树优化分枝长度使其计算的该拓扑结构的似然值最大化。通过计算不 同拓扑结构树的似然值,将具有最大似然值的树看成是指定模型下的能够产生 观测数据的最佳估计。
系统发生树的自举检验
位置
序列 1 2 3 4 5 6 7 8 9 10 Ⅰ G GGGGGATCA Ⅱ G GGAGT ATCA Ⅲ G GAT AGACAT
Ⅳ G AT CAT GTAT Ⅴ G T T CAT ATCT
Ⅰ
推断树
Ⅱ
Ⅲ Ⅳ
(a)
Ⅴ
自举树1 自举树2
Ⅰ
自举树
Ⅱ
Ⅲ
75 67
Ⅳ
自举树3
Ⅴ
无信号位点; 多型位点 1.简约信号位点; 2.无信号位点;
最大似然法( Maximum Likelyhood Method )
最大似然法估计的基本思想是:设函数的总体分布已知,但有未知参数θ, θ可 以有很多值,在θ的一切可能取值中选一个使样本观察值出现的频率为最大的θ 值作为其估计值,称其为θ的最大似然估计值。
构建进化树的方法
UPGMA法 (Unweighted Pair Group Method using Arithmetic average) 1.距离法
NJ法(neighbor joining method) 2.最大简约法(Maximum Parsimony Method)
3.最大似然法(Maximum Likelyhood Method) 4.贝叶斯法(Bayesin)
树的分类
1.树状图&网状图 2.二歧树&多歧树 3.有根树&无根树 4.基因树&物种树
基因树:根据DNA或蛋白序列构建的系统树; 物种树:表达生物类群进化路径的系统树。
树的分类 1.树状图&网状图 2.二歧树&多歧树 3.有根树&无根树 4.基因树&物种树
1.张亚平, 从DNA序列到物种树.
➢ 进化论的发展 ➢ 分子进化学说 ➢ 进化模型 ➢ 生命树概述 ➢ 进化树构建常用方法 ➢ 进化树检验 ➢ 进化树构建中的问题 ➢ 最近的工作
后验概率 一般 慢 可以 所有序列
➢ 进化论的发展 ➢ 分子进化学说 ➢ 进化模型 ➢ 生命树概述 ➢ 进化树构建常用方法 ➢ 进化树检验 ➢ 进化树构建中的问题 ➢ 最近的工作
所有的系统发生树都是关于组成数据集的序列的进化历史的假设。 系统发生树的可靠性?
自举检验——解决问题 参数检验——解决问题
最大似然法( Maximum Likelyhood Method ) 建树过程: 1.选择进化模型; 2.以MPT或NJ树为基础采用ML法估计模型中的各个参数; 3.根据确定好的参数、模型,从MP树、NJ树或其他类型的起始树开始进行 ML分析,以发现似然值最大的树; 4.用统计学方法从多个ML树中选择最优ML树,并进行ML树的可靠性检验。
基于性状数据的系统发生分析方法的比较
简约法 奥卡姆剃刀 简约信号位点 无 —— 树长 性状优化 有 MPT
最大似然法 似然统计法 全部位点 有 优化 似然值 似然函数 有 MLT
自举法 较严重 快 可以 相近序列
自举法 一般 慢 不能 所有序列
贝叶斯法 贝叶斯统计 全部位点 有 概率 后验概率 似然函数 无(模拟) 树和参数的后验概率
分子钟
➢ 进化论的发展 ➢ 分子进化学说 ➢ 进化模型 ➢ 生命树概述 ➢ 进化树构建常用方法 ➢ 进化树检验 ➢ 进化树构建中的问题 ➢ 最近的工作
DNA序列进化模型
AG
A
AT
AC
GA
G
GT
GC
CT
C
CA
CG
TC
T
TA
TG
JC69 K80
HKY85
➢ 进化论的发展 ➢ 分子进化学说 ➢ 进化模型 ➢ 生命树概述 ➢ 进化树构建常用方法 ➢ 进化树检验 ➢ 进化树构建中的问题 ➢ 最近的工作
自举检验 (bootstrap test)
自举检验是一种重采样技术,能粗略地量化这些置信度水平。
自举检验的基本方法是: (1)从原数据集中抽取(同时替换)部分数据组成新的数据集。 (2)用这个新的数据集 推断 系统发生树。
重复上述过程,产生成百上千的重采样数据集,并同时生成对应的自举树, 进而检验自举树对最终系统发生树各个分支的支持率。 在各个自举树中都有出现或大量出现的那些部分将具有较高的置信度。产生 相同分组的自举树的数目常常标注在系统发生树相应节点的旁边,表示树中 每个部分的相对置信度。
最大简约法(Maximum Parsimony Method)
Principle:Ockham
解释数据集中性状状态改变需要最小额外进化步骤数目的树为最优树。 当给定一组性状后,简约分析首先确定每个性状在任一给定树上优化 后的进化步骤数,所有性状在一棵树上的进化改变总数称为树长。 可以解释数据集所有性状分布的最小树长的树称为最简约树(MPT)
基于性状
距离法 UPGMA法
前提条件: 在进化过程中,每一世代发生趋异的次数相同,即碱基或氨基酸 的替换速率是均等且恒等的。
根据求得的距离系数,所有比较的分类单元的成对距离构成一个t×t方阵,即建立一 个距离矩阵M。
对于一个给定的距离矩阵,寻求最小距离值Dpq。
定义类群p和q之间的分支深度Lpq=Dpq/2。
3.不同类型数据的分析策略:
1.达尔文的自然选择学说: 强调生物进化 的“渐进性”,完全否认“跳跃性”
2.新拉马克主义(neo-Lamarckism) 强调用进废退,强调功能决定结构
3.新达尔文主义(neo-Darwinism) 强调颗粒遗传与基因在遗传变异中的作用
4.综合进化论 彻底否定了获得性遗传;强调了进化的渐进性,进化是群体现象,进化方向由 自然选择来决定。
➢ 进化论的发展 ➢ 分子进化学说 ➢ 进化模型 ➢ 生命树概述 ➢ 进化树构建常用方法 ➢ 进化树检验 ➢ 进化树构建中的问题 ➢ 最近的工作
分子进化的中性学说
分子进化的中性,不影响蛋白和核酸的功能; 2.中性突变不影响其对生活环境的生存适合度; 3.分子进化的速率是由中性突变的速率来决定的,即对每个蛋白或基 因来说,aa/nt的每个位点每年的替代率对所有生物是恒定的,称为分 子钟(molecular evolutionary clock)。
1.系统树赋根 外群赋根法:
1.系统树赋根 分子钟赋根法:
2.长枝吸引(Long-branch Attraction,LBA) 在用系统发生方法分析一个有限的数据集的时候,由于高频率的相似变化(趋 同、平行进化)和加速的进化速率等因素的存在使序列达到相同状态而人为地 将这些不是来自于共同祖先的序列的代表分类元聚在一起,使这些分类单元之 间相互吸引。
1.Hedgehog进化速 率较快; 2.显著不同的核苷 酸组成;
1.Sequence analysis of the complete mitochondrial DNA molecule of the hedgehog, Erinaceus europaeus, and the phylogenetic position of the Lipotyphla ,2019. 2.Murphy, W.J., et al., Resolution of the early placental mammal radiation using Bayesian phylogenetics. Science, 2019. 294(5550): p. 2348-51.
系统发育树的构建
xflee 2019-12-5
➢ 进化论的发展 ➢ 分子进化学说 ➢ 进化模型 ➢ 生命树概述 ➢ 进化树构建常用方法 ➢ 进化树检验 ➢ 进化树构建中的问题 ➢ 最近的工作
➢ 进化论的发展 ➢ 分子进化学说 ➢ 进化模型 ➢ 生命树概述 ➢ 进化树构建常用方法 ➢ 进化树检验 ➢ 进化树构建中的问题 ➢ 最近的工作
树的分类 1.树状图&网状图 2.二歧树&多歧树
树的分类 1.树状图&网状图 2.二歧树&多歧树 3.有根树&无根树
1.Wang, Z., et al., The draft genomes of soft-shell turtle and green sea turtle yield insights into the development and evolution of the turtle-specific body plan. Nat Genet, 2019. 45(6): p. 701-6. 2. Trees for bees.
最大简约法(Maximum Parsimony Method) 简约法能获得正确树的条件 1.每个序列位点没有回复突变或者平行突变; 2.取样位点树非常多; 简约法很可能出现的问题是:长枝吸引;
最大简约法(Maximum Parsimony Method)
性状分布模式: 筛选简约信号位点。
单型位点
(c) 为3个重采样数据集的一致树