当前位置:文档之家› 进化树构建方法

进化树构建方法


P(B)=0.001*0.99+0.999*0.02=0.02097=> 人群中任取一人被检测为阳性的概率
贝叶斯-例子
临床检测: 初检为阳性的结果并不可怕,因此确诊需要复检 假设二次检查,再次检出为阳性 问: 患病的概率有多大 初检为阳性:P(B) 复检为阳性:P(C)
则两次都为阳性的情况下该人患病的概率为
给定核苷酸 i 在时间t之后变成j 的概率。矩阵P(t)= {pijt)} 时间*速率=距离=>概率
距离计算-JC69
横坐标d=3 *t
此公式的推导,考虑了所有的路径,因此可以矫正回复突变或平行突变 进化速率 和进化时间 t 以乘积形式出现 =>
AAAAAAAA => AATTGGCC
距离计算-JC69
贝叶斯定理
贝叶斯-例子
临床检测: 假设一个人被感染HIV,医院检测其为阳性的概率为99%。 真阳性 假设一个人未被感染,医院检测其为阳性的概率为2%。假阳性 假设HIV的人群发病率0.1% 问:若一个人被查出阳性,那么此人患病的概率为多少?
A: 感染, B: 阳性, B|A: 染病情况下查出阳性,A|B, 查出阳性情况下染病
进化树构建方法
邢鹏伟
2018.11
内节点(灭绝物种) 外节点(现存物种)
分子钟置根法:如果在所有时间内进化速率是恒定的,即假定存在分子钟 产生有根树的条件: 外类群置根法:在树重建中引入关系较远的物种,同时在对所有物种重建的无根树中, 将树根置于连接外类群的枝,使得内类群的子树有根
邻接法 Neighbour joining 基于距离 distance-based 最小二乘法 Least squares 非加权算数平均组对(UPGMA )法
可以计算出
= 0.1015
其他模型
构树-UPBMA
构树-邻接法
UPGMA法在叶节点的枝长不等长时会聚类错误,如下图所示,使用UPGMA则会优先把AC聚在一块
N:物种数
B C A C
B A U

F
D
F E
D
E
定义节点U为A和B的父节点 D(AU)= d(AB)/2+[r(A)-r(B)]/2(N-2)=1 D(BU)=d(AB)-d(AU)=4 D(CU)=d(AC)+d(BC)-d(AB)/2=3
P(反正正正正反正正正反)=(1-p)*p*p*p*p*(1-p)*p*p*p*(1-p)=
当p=0.7时,该函数取得最大值,即P(..)最有可能发生 似然函数定义为参数给定时观测数据的概率 P(观测|参数)
最大似然:使观测数据的概率最大
构树-最大似然法
原理:将每个位点所有可能出现的残基替换概率进行累加,产生特定位点的似然值, 对所有可能的系统发育树都计算似然函数,似然函数值最大的那颗树 即最可能的系统发育树。 讲人话
最大似然VS贝叶斯
距离方法采用核苷酸或氨基酸置 换模型来计算成对距离 似然法和贝斯法用置换模型来计 算似然函数。
树的可靠性验证-bootstrap
对于插入和缺失的处理
1. 考虑为第五种核苷酸
2. 删掉该位点
3. 处理为不确定核苷酸YTR(Y=T or C,R=A or G)
3. 使用考虑插入和缺失的置换模型 ….
MCMC
已知后验分布P, 找到收敛于P的马尔科夫转换概率矩阵,从此马尔科夫链上随机采样
根据采样得到的参数, 计算每一颗树的后验概率
构树-贝叶斯
优点:速度快,相对比较准确,应用广泛 缺点:对进化模型比较敏感,BI法中指定的每个氨基酸的后验概率建立在许多假说条件下, 在现实中可能不成立。
适用:大或复杂的数据集
构树-邻接法
优点:速度快,相对比较准确,应用广泛 缺点:序列上的所有位点等同对待,且所分析的序列的进化距离不能太大。
适用:进化距离不大,信息位点少的短序列
构树-最大似然法
似然: The likelihood of something happening is how likely it is to happen. 例子: 抛硬币10次,得到:反正正正正反正正正反 假设: 正面朝上的概率为p, 反面则为1-p
由于存在回复突变,即A->C->A,平行突变, 即A->T, A->T因此序列相似性不能
估算亲缘关系
距离计算-JC69
Juckes and Cantor,1969 假定每个核苷酸变成其他任何一个核苷酸都是相同速率λ q( ij ) 表示核苷酸i变成核苷酸 j 时的瞬时速率(i, j=T,C,A,G),
0.99*0.99=0.9801
0.99*0.99=0.9801 =71.03%
0.02*0.02=0.0004
构树-贝叶斯
对于连续参数,则用概率密度 难以计算 f(θ ) 为先验分布, f(X|θ )为似然率(给定参数θ 时数据X 的概率) 而 f(θ |X)为后验分布
后验分布=先验分布*似然率
每个核苷酸突变为其他核苷酸的速率为, 因此总突变速率为3 距离d = 3 t 子裔序列不同于祖先序列的核苷酸概率为
:两条序列的差异位点比例 :两条序列进化距离 两条序列位点差异<75% Gap : 剔除
距离计算-JC69
例子:人类和猩猩的线粒体基因组12srRNA, 比对后,剔除6个gap,剩余954个位点,差 异数目90,因此差异比例 p = 90/954=0.09494
参数给定时,观测数据发生的概率,即似然率 T: 进化树 : 进化树的参数向量 D: 观测数据(序列) 每一种参数下的进化树形成的概率,即先验分布 观测数据的边缘概率,标准化的常数 是所有可能的树拓扑结构之和及这些树中所有枝长的积分
涉及到大量参数的高维积分,非常难计算
一般通过MCMC方法计算
蒙特卡洛
1. 采样样本独立 2. 有些时候,直接从给定的函数分布中抽取样本很难 是一个高维向量时难以抽的符合该分布的样本集
马尔科夫链
用来采样的
根据马尔科夫状态转换矩阵的平稳分布的重要性质,给定马尔科夫状态转换矩阵,可以采样 得到符合该平稳分布的样本集 如果已知概率分布P(x), 但不容易从该分布中直接进行采样 假设该分布对应某马尔科夫状态转换矩阵,只要求得此矩阵,就可以进行采样
构树方法
基于特征 character-based
最大简约
最大似然
贝叶斯
距离计算 两条序列间的距离被定义为平均每个位点核苷酸置换的期望数。
例:如果进化速率是恒定的,距离将随分歧时间线性增长。一种简化的距离测
度就是差异位点比例,有时称为p 距离。如果同为100个核苷酸长度的 两条序列间有10个位点差异,则p=10%=0.1。
K=转换/颠换 所有位点即每个位点的乘积
构树-最大似然法
ATCG ATCG ATCG
ATCG
从祖先节点0,进化到TCACC的所有可能的核苷酸组合的积分 对所有节点,再求积分
计算每一棵树的概率分值,选最大的
穷举,启发,随机树搜索(模拟退火,遗传算法)
构树-最大似然法
优点:在进化模型确定的情况下,ML法是与进化事实吻合最好的建树算法。 缺点:计算耗时,速度慢
优缺点
较少使用
用复杂替代模型来接近生物学上意义
计算复杂度高,耗时
设定先验概率,可包含已知信息
后验概率容易过高,难以确定先验概率等
假定所有序列都是从一条碱基进化而来(拥有共同祖先),给定一定的进化模型后, 什么样的拓扑结构,多长的枝长,什么样的模型参数最有可能产生出当前各序列。
构树-最大似然法
回到树上
假设比对后序列长度为n,序列个数为s,可以组成矩阵:
x(i,j) 代表第 i 条序列的第 j 个核苷酸
假定序列中每个位点都是独立进化 在某个位点上的观测数据为:TCACC
相关主题