浅谈系统发育分析
• 序列相似性:序列比对过程中用来描 述检测序列和目标序列之间相似DNA碱基或 氨基酸残基序列所占比例 同源性:两个基因或蛋白质序列具有共同祖 先的结论 备注:同源序列多表现一致性,相似不一定 同源
直系同源
旁系同源
• 单系类群(monophyletic group)包含一个祖先 类群所有子裔的群组称为单系类群,其成员间存在共同祖 先关系 • 并系类群(paraphyletic group)和复系类群 (polyphyletic group):不满足单系类群要求,各成员间 又具有共同祖先特征的群组称为并系类群;各成员不具有 共同衍生特征也不具有共同祖先特征,只具有同型特征的 分类群组称为复系类群 • 内类群(ingroup):一项研究所涉及的某一特定类群可 称为内类群 • 外类群(outgroup):不包含在内类群中又与之有一定关 系的类群,为了比较内类群中各成员的特征差异.
序列比对 • 序列比对分为双序列比对和多重序列 比对。双序列比对表示两条序列之间的变化 • 分类群数目较少且序列较短的对位排列, 可以用手工排序,但数目多且序列较长的 对位排列,一般使用计算机软件进行处理 ,如CLUSTAL系列软件正是必不可少的常 用软件,利用软件进行排序会有一些偏差 ,这时就需要手工进行校正 实现软件:ClustalX、BioEdit
外类群选择 • 选择一个或多个已知与分析序列关系较远 的序列作为外类群; • 外类群可以辅助定位树根; • 外类群序列必须与剩余序列关系较近,但 外类群序列与其他序列间的差异必须比其 他序列之间的差异更显著
确定核苷酸替代模型——似然法
• 对于氨基酸序列的替代通常使用 P 距离、泊松校 正距离或Г距离来计算距离矩阵 • 对于 DNA序列恢复突变与同义替代的可能性大大增加, 需要选择适合的核苷酸替代模型将序列中的碱基替换比率 信息加入到距离测度 • 常用的替换模型包括Jukes-Cantor 模型、Kimura 模型、 Tamura-Nei 模型 实现软件:Modeltest,对56个DNA进化模型进行检验,目 前jModelTest能实现88个
1
进化树 进化树
6
时间度量树 时间度量树
Taxon B Taxon B
1
Taxon C
Taxon C
Taxon A Taxon D
Taxon A Taxon D
无意义
遗传变化
时间
• 系统树分为两种树,有根树(含外类群)和无根树 (不含外类群) • 有根树的根节点为全部分类单元最近共同祖先, 它反映了 分类单元间的进化关系, 而无根树仅反映出分类单元间的 分类关系
距离法包括UPGMA、ME法、NJ法等 实现软件MEGA、PHYLIP等
距离矩阵法-UPGMA法 • 基本假设是各分类群的进化速率相同,因 此从祖先节点分离的两个分类群到该祖先 节点的分支长度相等 • 首先计算各分类群两两间的进化距离,将进 化距离最小的两个分类群(如A、B)最先聚 合,将A、B合并成一个聚合群C,用C代替A 和B,计算C与剩余分类群两两间的进化距离, 再次将距离最小的两个分类群聚合,合并为 一个聚合群D,依此循环计算,直至所有分类 群都包含在一棵树中
替代
插入
缺失
倒位
分子钟:在各种不同的发育系谱(lineage )及 足够大的进化时间尺度中,许多序列的进 化速率几乎是衡定不变的 中性进化学说:大多数突变基因在选择上是 中立的,即无益又无害,中立突变基因在 群体中的固定是随机漂变引起的因此功能 上重要的 基因受到更多的选择压力而进化 速率较慢新基因产生的主要方式是基因重 复和不等交换.
构建系统树的方法
距离矩阵法 最大似然法
最大简约法 Mrbayes法等
计算速度:距离法
>最大简约法 >最大似然
法
距离矩阵法
• 不同DNA域进化模式不一致,通常用于系统发生 分析的DNA序列均来自编码区, 若不考虑密码子的简并, 并 假定所有位点的替代速率均相同,就能根据核苷酸替代模 型估算出进化距离 ( 如 JC 距离、Kimura 距离等) 。若替 代速率服从分布,则为相应的距离。距离法首先估算序列 两两间的进化距离,然后根据不同的算法,从进化距离最短 的开始依次聚类,利用距离方阵计算出最优树,或将分枝长 度之和最小化,获得优化树。
二、基本概念介绍
• DNA有四种碱基(A、T、C、G)组成,基因是有这 四种碱基线性排成的长链 基因:DNA转录区、5'和3'非转录侧翼区3个部分构成。
GT..AG DNA 5'调节区 前mRNA 5'非翻译区 内含子1 外显子1 内含子剪接 翻译 外显子 3 3'非翻译区 外显子1 转录 内含子2 GT..AG 3'末端
• 树的拓扑结构表现了各物种间的亲缘关系 • 树的分枝长度刻画了进化距离的大小
分支/世系
末端节点 代表最终分 类,可以是 B 物种,群体 C ,或者蛋白 质、DNA、 D RNA分子等
A
祖先节点/ 树根
内部节点/分歧点,该 分支可能的祖先结点
E
系统发育树类型
分支图 分支图
Taxon B Taxon C Taxon A Taxon D
理想的途径通常用化石作为证据,但是化 石零散不完整 大多数研究者转向形态比较学和比较生理 学的方法,得到有机体进化关系的主要框 架,详细的进化关系无法得出,较主观 DNA遗传物质的发现,考虑基因的进化是 否有其规律性?能否用数学模型来描述其 Yes 规律性? 系统树的产生
Background • 1964年,Linus Pauling提出分子进化 理论 • 从物种的一些分子特性出发,从而了解物 种之间的生物系统发生的关系。 • 发生在分子层面的进化过程:DNA, RNA和 蛋白质分子 • 基本假设:核苷酸和氨基酸序列中含有生 物进化历史的全部信息。
• 缺点:UPGMA 法在不同谱系间进化速 率有较大差异或有同源序列的平行进化时常 得出错误的拓扑结构,而且当进化树的状态 空间较大时,UPGMA法的可操作性极差, 因 而该建树方法的使用极为有限 现在这种建树方法很少用
距离矩阵法-ME法
• 最小进化法(ME)的理论基础源于Rzhetsky 和Nei的 数学证明:当距离使用无偏估计时,树的真实拓扑结构的分支 长度和的期望值最小 • 基本假设是:在所有可能的拓扑结构中,真实树对应的进 化过程所需的突变或替代次数最少,即系统树的分支之和 具有最小值 • 该方法需要处理所有可能的拓扑结构,5节点的无根树具 有15种可能拓扑,10节点时就有2027025种可能拓扑,因 此当分类群数量增大时该方法并不实用
பைடு நூலகம்
MP-最大简约法
• 对系统发生分析而言,该法则有两层含义[11]: 一是用最少的进化事件( 如突变) 去解释观察到的数据; 二是 在任何进化模型或机制下,假设尽可能少。具体来说最优 树就是在解释整个进化过程时,全部位点的最小核苷酸替 代数之和最小的树 i: AGGGTAACTG j: ACGATTATTA k: ATAATTGTCT l: AATGTTGTCG
浅谈分子进化与系统 发育分析
Molecular Evolution and Phylogenetics
李杨坤 Tell:13141385040 Email:lyk_caf@
报告内容
介绍其发展背景
针对相关基本概念介绍
系统发育树的构建方法与原理 正确树后期处理软件应用
一、研究背景
自达尔文时期,许多生物学家梦想着,能用一种 树的形式来描述地球上所有生命的进化历史
树A( 0 3 2 2 0 1 1 1 1 3) ;树 B( 0 3 2 2 0 1 2 1 2 3) ; 树 C( 0 3 2 1 0 1 2 1 2 3)
简约法是一种不依赖任何进化模型的统计方 法,能快速地分析出大量序列之间的系统发生关系, 所构建的树中的短分支更接近真实。 缺点:简约树的分值完全决定于所有重建祖先序列 中的最小突变数,而突变是否按照事先约定的核苷 酸最少替代的途径进行是不得而知的,单一的突变 图谱可能会得出是似而非的结论。 当序列单位位点上核苷酸替代数相对较大时,MP 法 则极可能得出错误拓扑结构的树。 实现软件:PAUP
• 替代模型:基于距离的方法和最大似然法 都是用参数模型描述序列间突变的过程。 直系同源:由于物种形成事件,从共同祖先 进化而来的基因, 通常具有相同或者相似的 基因功能。 旁系同源:由基因复制而分离的同源基因, 同时基因复制通常伴随着基因功能的分化, 因此旁系同源基因会进化出不同的功能 异系同源:由某一个基因水平转移事件而得 到的同源序列。水平转移的基因功能主要 根据在前后宿主中变化而确定,然而功能 却常常相似
距离矩阵-NJ法(ME方法的发展)
• 邻接法( NJ):从星形树出发,假定X为共同祖先, 事先不知哪两个分类群为一对邻居,因而首先应分别计算任 意两个分类群为第一对邻居时树的分支长度和,选取值最 小时的两个分类群作为邻居,连接它们的内节点为第一个 内节点,然后在剩余分类群中选取任意两个分类群为第二 对邻居,类似地找到第二个内节点,依此,直至找到所有内节 点
ML-极大似然法 • 假设:不同的性状进化是独立的;物种 发生分歧后进化独立。单个位点的似然值是 指在核苷酸替代模型中该位点每个可能被 取代或再现的概率之和,将所有位点似然值 相乘就得到进化树的似然值 • 最大似然法似乎是几种常用方法中最为近 似的方法,它考虑了所有可能的突变路径, 能 完全利用数据的系统发生信息。然而, 最大 似然法构建的系统树在很大程度上依赖于 对核苷酸替代模型的选择
多肽
备注:前mRNA是有编码区和非编码区组成,某些非编码区被剪切,剪 切片段为内含子
• 进化第一原因:基因突变 • DNA突变的模式:替代,插入,缺失,倒 位; • 核苷酸替代:转换 (Transition) & 颠换 (Transversion) • 转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶 替代 • 颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤 替代