当前位置:文档之家› 分子进化树

分子进化树

二、方法的选择
First of all, I have no intention to be offensive, please take my apology if you feel like that. I am not sure about the purpose of this draft, is it only for watering in or something else? Simply ignore my suggestions when you think it's reasonable. 首先是方法的选择。基于距离的方法有UPGMA、ME(Minimum Evolution,最小进化法)和NJ(NeighborJoining,邻接法)等。其他的几种方法包括MP(Maximum parsimony,最大简约法)、ML(Maximum likelihood,最大似然法)以及贝叶斯(Bayesian)推断等方法。其中UPGMA法已经较少使用。 一般来讲,如果模型合适,ML的效果较好。对近缘序列,有人喜欢MP,因为用的假设最少。MP一般不用在远 缘序列上,这时一般用NJ或ML。对相似度很低的序列,NJ往往出现Long-branch attraction(LBA,长枝吸引现 象),有时严重干扰进化树的构建。(All tree-reconstruction methods suffer from long branch attraction including ML, the situation is the worst for MP. Better mention it is not only for NJ.)贝叶斯的方法则太慢。(MP can also be extremely slow if we have a large number of sequences because of all the possible “equally parsimonious trees”)对于各种方法构建分子进化树的准确性,一篇综述(Hall BG. Mol Biol Evol 2005, 22 (3):792-802)认为贝叶斯的方法最好,其次是ML,然后是MP。其实如果序列的相似性较高,各种方法都会得到 不错的结果,模型间的差别也不大。(Maybe it is worthwhile to list another two review papers, Trends in Genetics 17:262–272 (2001), Nature Rev. Genet. 4:275–284(2003). They were not branch newly published in 2005 or 2006, but they comprehensive and actually the basic ideas never changed.) 对于NJ和ML,是需要选择模型的。(For distance methods like NJ, the single most important thing is the distance matrix while we do not have to obtain this matrix under a specific substitution model. )对于各种模型之 间的理论上的区别,这里不作深入的探讨,可以参看Nei的书。对于蛋白质序列以及DNA序列,两者模型的选择 是不同的。以作者的经验来说,对于蛋白质的序列,一般选择Poisson Correction(泊松修正)这一模型。而对 于核酸序列,一般选择Kimura 2-parameter(Kimura-2参数)模型。(I am really confused by these recommendations because there are tons of works to show reasonably more complicated models perform
三、软件的选择
表1中列出了一些与构建分子进化树相关的软件。 构建NJ树,可以用PHYLIP(写得有点问题,例如比较慢,并且Bootstrap检验不方便)或者MEGA。MEGA是 Nei开发的方法并设计的图形化的软件,使用非常方便。作者推荐MEGA软件为初学者的首选。虽然多雪列比对 工具ClustalW/X自带了一个NJ的建树程序,但是该程序只有p-distance模型,而且构建的树不够准确,一般不用 来构建进化树。(The guide tree in ClustalX takes the distance matrix based on the scoring matrix, this kind of measure for evolutionary distance is sloppy, I guess that's why it is called “guide tree”.) 构建MP树,最好的工具是PAUP,但该程序属于商业软件,并不对学术免费。因此,作者并不建议使用PAUP。 而MEGA和PHYLIP也可以用来构建进化树。这里,作者推荐使用MEGA来构建MP树。理由是,MEGA是图形化 的软件,使用方便,而PHYLIP则是命令行格式的软件,使用较为繁琐。对于近缘序列的进化树构建,MP方法几 乎是最好的。 构建ML树可以使用PHYML,速度最快。或者使用Tree-puzzle,速度也较快,并且该程序做蛋白质序列的进化树 效果比较好。而PAML则并不适合构建进化树。ML的模型选择是看构出的树的likelihood值,从参数少,简单的 模型试起,到likelihood值最大为止。ML也可以使用PAUP或者PHYLIP来构建。这里作者推荐的工具是BioEdit。 BioEdit集成了一些PHYLIP的程序,用来构建进化树。Tree-puzzle是另外一个不错的选择,不过该程序是命令行 格式的,需要学习DOS命令。PHYML的不足之处是没有win32的版本,只有适用于64位的版本,因此不推荐使 用。(It is not true, PhyML has compiled executables for standard PC running windows.)值得注意的是,构建ML 树,不需要事先的多序列比对,而直接使用FASTA格式的序列即可。(This is not true. As I know, all the evolutionary models incorporating indels are not practical at this stage and they are not widely implemented at all.) 贝叶斯的算法以MrBayes为代表,不过速度较慢。(It is not true. ML can be even slower when the surface of likelihood is very flat, the optimization procedure will almost never get to that peak. Th power of taking into account the uncertainty in tree reconstruction Bayesian framework should anyway be mentioned somewhere due to popularity of Bayesian methods.)一般的进化树分析中较少应用。(No, I don't agree)由于该方法需要很多 背景的知识,这里不作介绍。
分子进化树构建及数据分析的简介
Page 1 of 5
豆瓣社区 豆瓣读书 豆瓣电影 豆瓣音乐 豆瓣同城 豆瓣FM 更多 首页 浏览发现
成员、小组、音乐人、主办方
大肠杆君的日记
大肠杆君的主页 广播树构建及数据分析的简介 2010-05-28 10:27:11
分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover[1], klaus, oldfish, yzwpf
一、引言
开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决 什么样的问题?带着这样的疑惑,我随手在丁香园(DXY)上以关键字“进化 分析 求助”进行了搜索,居然有 289篇相关的帖子(2006年9月12日)。而以关键字“进化 分析”和“进化”为关键字搜索,分别找到2,733和 7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关,这里我保守的估计,大约有3,000~4,000篇帖子的 内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的几类: 1.涉及基本概念。例如,“分子进化与生物进化是不是一个概念”,“关于微卫星进化模型有没有什么新的进 展”以及“关于Kruglyak的模型有没有改进的出现”,等等。 2.关于构建进化树的方法的选择。例如,“用boostrap NJ得到XX图,请问该怎样理解?能否应用于文章?用 boostrap test中的ME法得到的是XXX树,请问与上个树比,哪个更好”,等等。 3.关于软件的选择。例如,“想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说 明如何做”,“拿到了16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要 什么软件”,“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”,“请问有做过进化树分析的 朋友,能不能提供一下,做树的时候参数的设置,以及代表的意思。还有各个分支等数值的意思,说明的问题 等”,等等。 4.蛋白家族的分类问题。例如,“搜集所有的关于一个特定domain的序列,共141条,做的进化树不知具体怎 么分析”,等等。 5.新基因功能的推断。例如,“根据一个新基因A氨基酸序列构建的系统发生树,这个进化树能否说明这个新 基因A和B同源,属于同一基因家族”,等等。 6.计算基因分化的年代。例如,“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近,具体 推算出他们之间的分歧时间”,“如何估计病毒进化中变异所需时间”,等等。 7.进化树的编辑。例如生成的进化树图片,如何进行后续的编辑,比如希望在图片上标注某些特定的内容,等 等。 由于相关的帖子太多,作者在这里对无法阅读全部的相关内容而致以歉意。同时,作者归纳的这七个问题也并不 完全代表所有的提问。对于问题1所涉及到的基本的概念,作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar 所撰写的《分子进化与系统发育》(Molecular Evolution and Phylogenetics)一书,以及相关的分子进化方面 的最新文献。对于问题7,作者之一lylover一般使用Powerpoint进行编辑,而Photoshop、Illustrator及Windows 自带的画图工具等都可以使用。 这里,作者在这里对问题2-6进行简要地解释和讨论,并希望能够初步地解答初学者的一些疑问。
相关主题