5 第五章 系统发生分析
考察类群数为 m ( m 3 )的系统树,其可能的拓扑结构 数目为:
有根树
( 2m 3)! m=10: 2 m 2 ( m 2)! 34,459,425种
无根树
( 2 m 5)! 2 m 3 ( m 3)!
m=10: 2,027,025种
当 m较大时,选出真实树的拓扑结构十分困难。
系统发生树: 物种(遗传特征)之间的 关系;
进化树: 从低等到高等, 有始有终
• 经典系统发生学
主要是物理或表型特征
如生物体的大小、颜色、触角个数
•即通过表型比较来推断生物体的基因型 (genotype),研究物种之间的进化关系. •有时候亲缘关系远的物种也能进化出相似的表 型,所谓的趋同进化(convergent evolution).所以 表型为依据的进化分析有时候并不正确. •如是否有眼睛?
核苷酸替代 substitution
核苷酸缺失 deletion
核苷酸插入 insertion
分子进化研究的目的
• 从物种的一些分子特性出发,构建系统发育树,进 而了解物种之间的生物系统发生的关系 —— tree of life; 物种分类
• 大分子功能与结构的分析:同一家族的大分子,具 有相似的三级结构及生化功能,通过序列同源性分 析,构建系统发育树,进行相关分析;功能预测 • 进化速率分析:例如,HIV的高突变性;哪些位点易 发生突变?
现代系统发生学 利用从遗传物质中提取的信息作为物种特 征 具体地说就是核酸序列或蛋白质分子
根据现有生物基因或物种多样性重建生物的进 化史是一个非常重要的问题。根据核酸和蛋白 质的序列信息,可以推断物种之间的系统发生 关系. 基本原理: 从一条序列变为另一条序列所需要 的变换越多,两条序列的相关性就越小,从共同 祖先分歧的时间越早,进化距离越大;反之, 两个序列越相似,它们之间的进化距离可能越 小.
分支数目: 有根树 无根树
内部分支数目: 有根树 内部节点数目: 有根树 无根树 无根树
无根树和有根树:潜在的数目
#Taxa
3 4 5 6 7 … 30
无根树
1 3 15 105 945 ~3.58X1036
有根树
3 15 105 945 10,395 ~2.04X1038
Taxa增多,计算量急剧增加,因此,目前算法都为 优化算法,不能保证最优解
From the Tree of the Life Website, University of Arizona
Orangutan
Gorilla
Chimpanzee
Human
Global Phylogeny of Fully Sequenced Organisms
Science. 2006 ; 311(5765):1283-7 Toward automatic reconstruction of a highly resolved tree of life
系统发育树的种类 ——期望树、现实树和重建树
理论上:
假设所研究的序列无限 长,从中随机抽样进行 统计分析。
实际情况:
所研究的序列是短序列, 统计得到的替代数目存 在大量随机误差。
期望树:
一个用无限长的序列或每一 分支的期望替代数构建的树
现实树:
建立在实际替代数基础上 的树
构树方法
重建树
系统发育树的构建
分子系统学为生物分类问题提供了许多崭新的见解。
生物进化的分子机制
1、核苷酸替代、插 入/缺失、重组 2、基因转换
遗传漂变
基因突变 自然选择 产生新的形态、性状
固定在生物个体 以及物种内
传递给后代 分子系统学是研究进化机制的一个重要工具。
DNA序列的突变
DNA分子的改变
性状改变
核苷酸倒位 invertion
Anna Anderson
?
Anastasia Tsar Nicholas II Establishing the identity of Anna Anderson Manahan
《真假公主》—— 1917年俄国末代王朝被推翻,贵族与侍卫 全部逃走,而沙皇可怜的儿子老少一个都没走脱,并于1918 年被全部处决。但民间却流传着沙皇的小女儿死里逃生,远 走他乡的故事。为了得到俄国沙皇的一千万遗产,许多人绞 尽脑汁寻找安娜公主,终无所获。俄国贵族后裔布丁将军终 于找到一位外貌气质酷似安娜公主的女子,于是训练她皇室 的各种礼仪及相关的人和事,安娜公主过关斩将。顺利和皇 太后相认,就在太后要宣布安娜公主为遗产继承人并与保罗 定婚时,安娜公主与布丁悄然消失,结局出人意料……
第三种方案 进化学的分子途径
普适性 由4种核酸组成 分子水平的进化表现为:DNA序列的演 化、氨基酸序列演化、蛋白质结构的演化
可比较性 比较不同物种的有关DNA序列 建立DNA序列的演化模 型、氨基酸序列的演化模型(数学模型) 蛋白质结构的演化模型 (形态、性状的演化模型?)
基因组编码信息的丰富 与形态、性状包含的信息相比,基因组序列包含更多、更 复杂的信息结构
Contents
• 第1节 基本概念 • 第2节 距离法 • 第3节 常用分子进化与系统发育分析的 软件 • 第4节 生物进化理论与分子进化的讨论
第一节 基本概念
基本概念: • 系统发生(phylogeny)——是指生物形成或进化的 历史 • 系统发生学(phylogenetics)——研究物种(遗传学特 征)之间的进化关系,认为特征相似的物种在遗传学 上接近.系统发生的结果常以系统发生树表示; • 系统发生树(phylogenetic tree)——表示形式,描 述物种(遗传学特征: 形态, 基因序列, 蛋白质序列等 等) 之间进化关系
构建系统发育树的数据 1、特征数据(character data): 提供了基因、个体、群体或物种的信息 2、距离数据(distance data)或相似性数据(similarity data): 涉及的则是成对基因、个体、群体或物种的信息。 距离矩阵 距离数据可以由特征数据计算得到。 反之?
构造系统发育树的主要方法
系统发育树的种类 ——基因树、物种树
基因分裂 物种树: 代表一个物种或群体 进化历史的系统发育树 两个物种分歧的时间: 基因分裂 两个物种发生生殖隔离的 基因分裂 时间 物种分裂 基因树: 由来自各个物种的一 个基因构建的系统发育树 (不完全等同于物种树), 表示基因分离的时间。 a b c d e f
–基于距离的构建方法 Fitch-Margoliash法 邻接法(Neighbor Joining Method) 非加权组平均法 最小进化方法 –基于离散特征的构建方法 最大简约法 最大似然法 进化简约法 相容性方法
构建系统发育树的主要过程 拓扑结构的判别(从大量的拓扑结构中搜寻、判别) 一个既定拓扑结构的分支长度的估计
What can we do for molecular evolution?
序列比较:源于同一祖先DNA/氨基酸序列的两条DNA/氨基酸 序列,考察二者的差异。 序列差异:进化过程中分子突变的痕迹
分子进化:以累计在DNA/氨基酸分子上的历史信息为基础, 研究分子水平的生物进化过程和机制。 分子系统发育学 Molecular Phylogenetics 分子系统学 Molecular Systematics
系统树可以是有根的rooted 也可以是无根的 (unrooted). 在有根树中存在一个被称为根特殊节点由此导向 任何别的节点都只有唯一图. 每一途径中的方向 与进化时间相对应.而根则是所有正被研究的的 共同祖先. 无根树是一种只将各间的关系具体化而未定义 进化途径的树图.
系统发生树性质: (1)如果是一棵有根树,则树根代表在进 化历史上是最早的、并且与其它所有分类单元 都有联系的分类单元; (2)如果找不到可以作为树根的单元,则 系统发生树是无根树; (3)从根节点出发到任何一个节点的路径 指明进化时间或者进化距离。
所有的生物都可以追溯到共同的祖先,生物的 产生和分化就象数一样地生长, 分叉, 以树的形 式来表示生物之间的进化关系是非常自然的事.
系统发生树是一种二叉树(每个节点最多有两 个子节点), 由一系列的节点(nodes)和分支 (branches)组成, 每个节点代表一个分类单元 (物种或序列), 节点之间的连线表示物种之间的 进化关系。枝长branch length 通常代表在该分 枝中曾发生过的变化数。
eukaryote eukaryote
Rooted by outp
archaea archaea archaea
外围群
有根树
root
eukaryote eukaryote eukaryote eukaryote
a b a
c d
a c b
b d
d
c
考虑4个分类群时,共有3种可能的无根树
进化分支图,进化树
Bacterium 1 Bacterium 2 Bacterium 3 Eukaryote 1 Eukaryote 2 Eukaryote 3 Eukaryote 4 Bacterium 1 Bacterium 2 Bacterium 3 Eukaryote 1
Cladograms show branching order branch lengths are meaningless 进化分支图,只用分支 信息,无支长信息。
Phylograms show branch order and branch lengths 进化树,有分支和支长 信息
Eukaryote 2 Eukaryote 3 Eukaryote 4
有根树,无根树,外围群
archaea archaea archaea
eukaryote
无根树
eukaryote