当前位置：文档之家› 分子系统发育分析—2

分子系统发育分析—2

0.1681 0.1114
d B ,(CD ) d E ,(CD )
C D
0.2719
36 /80
• 删去C类和D类，加入新类（CD）类，重新计算（N=4）。
A A B （CD） … … … B … （CD） … … E … … … … … …
ri
ri
N 2
… … …
E
…
…
…
…
5点到（1,2）点的距离计算？），聚类。
1
2
6
7
1
3 4 5
2
4
5
21 /80
续
第四步：继续聚类过程，3点和（4,5点）聚到一起。
d38 d 48 d58
d 34 d 35 d 3 4 , 5 算术平均 2
8 7 6
3
1
2
4 5
1
2
4
5
3
22 /80
续
第五步：最后全部聚成一类。
二．基于特征法
12 /80
Distances in Trees
• 进化树的边权值（边的长度）的含义:
• 进化路径上一个物种进化为另外一个物种的变异次数； • 一个物种进化为另外一个物种的进化时间估计。
• 在一棵树T中，采用符号：
dij T - the length of a path between leaves（OUT） i and j
2 /80
核酸替换模型
J-C模型
Kimura模型
一般意义上，哪个模型更合适？
3 /80
• 利用部分基因（dna序列）构建物种树，你认为dna序列的选择与构建进化树算法的选择哪个影响更大？为什么？ • 为什么需要对p-distance进行校正？校正值相对于p-distance是偏大还是偏小？为什么？近缘序列与远缘序列哪一组更需要校正？ • 假设某蛋白的进化速率是 1.2 109 /site/year，那么该蛋白每 100 million years的PAM是多少？
…
37 /80
最终结果
A B
0.0646 0.0492 0.1114
C
u3
0.1412
u2
u1
0.1681
E
0.0500 0.0730
D
38 /80
自展法（ Bootstrap ）——进化树评估
• 自展法由Felsenstein（1985）引入，是Efrom（1979）和 Efrom与Tibshirani（1993）所发展的统计学中自展技术的直接应用。
1
4
2
3
26 /80
4条序列的例子
A B (CD)
A
A B C D 0.6 0.4 0.5
B
C
D
A B (CD) 0.6 0.45 0.5
0.6 0.4 0.2
0.1
C D
d B , A,CD
0. 6 0. 6 0. 4 1. 6 3 3
2 1 1.6 d B , A,CD d B ,CD d B , A 3 3 3
• • • • 把i和j归并为一类（ij），计算新节点的分支长度；计算新类与其他类的距离；删除类i和j，添加新类（ij），更新距离矩阵。如果只有2个分类，连接这两个分类，结束循环。
33 /80
Example
• 5个分类群5s rRNA的例子。
A
B C
0
0.1715
0
0.2147
0.2991 0
-0.4221 -0.4441
0.4289
1.3574
1.2616
0.4525
0.4205
也就是第一步C和D被选择合并。
35 /80
• 计算新类（CD）的两个分支长度，即C到（CD）之间距离和D到（CD）之间距离，以及（CD）到其他节点（类）之间距离。
dC ,(CD ) dCD r r 0.1114 C D 0.2795 0.3959 0.4525 2 2 2 2N 2
9
1 2
8 7
3 4 5
6 1 2 4 5 3
23 /80
距离计算方法
给定两个相连的类 Ci, Cj ，那么
1 dij = ––––––––– {p Ci, q Cj}dpq |Ci| |Cj|
注意，如果 Ck = Ci Cj, 则Ck到类 Cl 的距离是：
dil |Ci| + djl |Cj| dkl = –––––––––––––– |Ci| + |Cj|
17 /80
Fitting Distance Matrix（拟合距离矩阵）
Lengths of path in an (unknown) tree T
• Fitting means Dij = dij(T)
Edit distance between species (known)
18 /80
UPGMA构建进化树的过程
15 /80
Distance Matrix
对称
16 /80
Edit Distance vs. Tree Distance
• 给定n个物种（序列），我们能得到 n x n distance matrix Dij • Dij – edit distance（编辑距离）between i and j • Note the difference with dij(T) – tree distance between i and j
0.225 0.267
A
B
27 /80
距离
11条核酸序列的距离矩阵
28 /80
建树
29 /80
邻接法（ Neighbor Joining Algorithm ）
• In 1987 Naruya Saitou and Masatoshi Nei developed a neighbor joining algorithm for phylogenetic tree reconstruction。 • 该方法基本思路也是和Hierarchical Clustering类似，初始n个分类，然后按照某种方法归并到一类。 • 在重建系统发生树时，该方法取消了非加权分组平均法（UPGMA）所做的假定，不需要关于分子钟的假设，在进化分支上，发生趋异的次数可以不同。 • 这种方法的基本思想是：在进行类的合并时，不仅要求待合并的类是相近的，同时，还要求待合并的类远离其它的类。
A
B
30 /80
邻接法（ Neighbor Joining Algorithm ）
初始所有OUT聚在一个点成星形结构，然后按照相应原则分割。如先是1和2组成一个进化分支，加入一个内部节点X，其他仍然聚在Y点，把X和Y相连，反复迭代直到得到二叉树。
31 /80
邻近归并法（ Neighbor Joining Algorithm ）
d D,(CD) dCD dC ,(CD) 0.2795 0.1114 0.1681
• 计算新类（CD）与其他类之间的距离。
d A,(CD ) d A,C d A, D d C , D 2 d B ,C d B , D d C , D 2 d E ,C d E , D d C , D 2 0.1222 0.1798
• 什么是进化树的操作分类单元operational taxonomic unit
(OUT)？ • 为什么说DNA序列的进化演变比蛋白质序列的演变更复杂？
4 /80
观察替换数与实际替换数
5 /80
有根树指定了进化路径。对or错？
6 /80
哪个进化分支更古老。
7 /80
主要内容
一．进化和系统发生概述
• 对所有的i和j，设j>i，然后找出最小值所对应的i和j。 M ij 最后，根据每一个步骤的结果绘制系统树。 • 原始文献《A note on the neighbor-joining algorithm of Saitou and Nei》。
32 /80
邻接法算法
• （1）初始化（与UPGMA算法一样） • （2）循环 • 计算ri和M ij ，选择最小的 M ij ；
0.3091
0
D
E
0
0.4289
0
34 /80
ri d ik，i 1,...,n
k 1
n
计算ri和M ij
A A B C -0.4766 -0.4905 B 0.1715
M ij d ij
r r
i j
N 2，i, j 1,...,n，j i
第一步：根据多序列比对（多序列比对过程？）结果计算所有序列成对距离，以二维图示。
1
2
3 4 5
19 /80
续
第二步：找到距离最近的两条序列，聚类在一起
（树图），成为一条序列（点）。6点到1点和2点距离平均分配。 d12 d16 d 26
1
2
6
3 4 5
1
2
20 /80
续
第三步：迭代，找到距离最近的两条序列（3、4和
24 /80
UPGMA方法的弱点
• UPGMA 算法产生的树有一个特点：从根节点到任何一片叶子的距离都相等。 • UPGMA假定每条序列（物种）进化速率是恒定的，这是这种方法的致命缺陷。
25 /80
UPGMA’s Weakness: Example
Correct tree UPGMA
3 2
4 1
1. 2. 历史背景分子钟假设
二．进化树的基本概念三．相关研究四．分子系统发生分析

e商务文档

分子系统发育分析—2

相关文档推荐：