当前位置:文档之家› 进化树的研究

进化树的研究

1 引言生物信息学是生物技术的核心,是在分子生物学和信息科学共同发展的基础上产生的一门交叉学科,包含对生物数据的获取、处理、存储、分发、分析、挖掘等方面的研究内容。

生物信息学的研究对于最终改善人类自身生活质量,解决健康问题等也有重大的作用。

随着分子生物学的不断发展,人们惊奇地发现DNA 的双螺旋结构中蕴涵着生命的密码,四种核苷酸的排列、变化包含着许多遗传、进化信息。

人类基因组计划以来,有关核酸(或蛋白质)序列和结构的数据成指数增长,而面对如此复杂的数据,计算机在此方面的应用必不可少。

因此,生物信息学研究的目的就在于,人们通过数学、计算机科学等各种工具,可以阐明和理解大量数据包含的生物学意义。

由于深度测序和基因芯片技术的不断完善和发展,表达谱、转录组、基因组等数据不断增长。

到目前为止,已被测序的昆虫基因至少有10个,被报道的转录组数据也有30多个。

生物信息学在昆虫学研究中的应用价值随着昆虫学研究的不断深入和昆虫生物数据的大量积累越来越明显。

大量医学昆虫、经济昆虫和农业昆虫的基因组在模式昆虫果蝇的基因组测序成功之后也相继被测序。

昆虫种类繁多、进化关系复杂、个体发育系统多样对于生物的多样性组成也占有举足轻重的地位。

此外,昆虫与人类的日常生活和生产亦有密切的关系。

例如,家蚕、蜜蜂等经济类益虫能够为人类提供日常生产资料和生活资源,害虫能给人类带来巨大的损失。

对昆虫基因组进行深入研究不仅能为传统昆虫学科的发展提供崭新的机遇,而且对深入了解昆虫的多样性及其生物学特征与本质具有重大意义。

所有生物都可以追溯到共同的祖先,生物的产生和分化就像树一样的生长,分叉,因此以树的形式来表示生物间的进化关系是非常合理的。

根据各类生物间的亲缘关系的远近,把生物安置在树状图表上,简明地表示生物的进化历程和亲缘关系的树状结构就是进化树。

在进化树上每个叶子结点代表一个物种,每一条边都被赋予一个适当的权值的话,两个物种之间的差异程度就可以用两个叶子结点间的最短距离来表示。

2 生物信息学2.1 生物信息学的诞生1953年Watson 和Crick发现了DNA的双螺旋结构,开辟了现代分子生物学的新纪元。

遗传中心法则的提出大大推动了分子生物学的发展。

随后,限制性内切酶的发现、重组DNA克隆技术的实现是新一代深度测序的基础,同时也是海量生物数据产生的重要推动力[1]。

1961年,计算科学首次被应用于基因和蛋白质的进化分析中。

1990年人类基因组计划正式启动。

此后更多的生物基因组测序计划开始进行,生物数据不断积累。

然而缓慢的信息挖掘速度与成指数级增长的生物数据形成了巨大差距,这种差距进一步推动了生物信息学的发展。

2.2 生物信息学的概念生物信息学以数学、信息学和计算机科学为主要手段,运用计算机软、硬件和计算机网络,对核酸、蛋白质等生物大分子数据库进行研究;对数据库中的原始数据进行存储、管理、注释、加工等, 形成具有明确生物意义的生物信息;通过信息查询、搜索、分析、比较,获取基因编码、核酸和蛋白质结构功能及其相互关系等知识;在大量信息和知识基础上, 探索生命起源、进化以及细胞、器官和个体的发生、发育、病变、衰亡等生命科学问题, 搞清它们的基本规律和时空联系,建立“生物学周期表”。

广义地说, 生物信息学是一门使用数学和信息学的观点、理论和方法研究生命现象、组织和分析迅速增长的生物信息数据的学科。

主要研究的是遗传物质的载体DNA 及其编码的大分子物质量,以计算机为主要工具,对各种学科交叉的生物信息学进行研究,找其规律性,发展出适合它的各种软件,对不断增长的DNA(蛋白质)序列和结构进行收集、整理、提取、加工、分析等。

狭义地说,生物信息学是以计算机科学和数学为主要工具,对生物大分子进行信息的获取、加工、存储、分类、检索等。

通过分析逐步认识生命的起源、进化、遗传和发育的本质,逐步破译隐藏在DNA 序列中的遗传语言,在分子基础上解释人体生理和病理过程,为人类疾病的诊断、预防和治疗提供最合理、有效的方法或途径是生物信息学研究的最终目的[2]。

2.3生物信息学在昆虫研究中的前景和展望由于测序技术不断发展,10年左右可能会形成昆虫测序的高峰期。

但昆虫种类多、进化关系复杂、基因杂合度大,基因组测序工作和分析工作仍有很大困难。

昆虫基因数据虽然获得了大量积累,并且正成指数级增加,但相对自然界丰富的物种来说,目前已获得的遗传信息仍然是非常渺小的。

生物信息学在昆虫学领域的应用仍处于起步阶段,有很大的发展空间。

昆虫基因数据的大量积累也将大大推动对资源昆虫的利用和害虫的控制,甚至有可能开辟资源昆虫利用的新领域,催生出全新的害虫控制技术。

3 基于基因组的昆虫学研究应用随着越来越多的昆虫正在进行或已经完成基因组测序,现阶段昆虫学的研究已经步入了基因组时代。

基因组时代的昆虫学研究方法相比于传统的昆虫学研究被赋予新的时代特征,其中基因组时代昆虫学研究应用包括:1)在个体生物学研究中的应用2)在多物种间及种群研究中的应用3)在系统生物学研究中的应用4 基因组时代昆虫学研究所面临的挑战4.1 未来发展趋势预计未来5到10年,随着大量昆虫的基因组测序工作的完成,昆虫学研究将迈向基因组时代的全盛期。

昆虫学的研究也将步入后基因组时代,即功能基因组时代。

我们要逐渐将个体生物学、进化学向多物种间或种群内不同个体间的基因组学过渡;将传统的生态学、生理学、行为学以及分子生物学相关研究逐步向更为全面的系统生物学过渡。

4.2 存在的问题与对策综合国内外现有的有关昆虫功能基因组学及结构基因组学的研究,发现虽然基因组时代的昆虫学研究进展迅速,但也存在以下4个主要问题和不足[3]。

1)全基因组测序的昆虫样本准备起来较为困难,导致难以获得纯和的DNA。

2)测序方法选择错误:选择第2代测序方法产生的片段较短,后续拼接组装难度较大,易造成测序缺口。

3)多重视结构基因组草图绘制时,遗传图谱构建和遗传标记的筛选被忽视,缺乏绘制精细物理图谱的有效手段。

4)大多非模式昆虫缺少遗传群体和突变体库。

针对基因组时代昆虫学研究存在的4大困难,提出以下对策:1)建立并优化供试昆虫多代自交、继代饲养体系。

2)采用第2代测序技术与传统建立人工染色体库相结合的方法。

3)在开展昆虫全基因组测序工作之前,先初步完成对供试昆虫遗传图谱构建和遗传分子标记筛选。

4)根据昆虫自身特征,对已完成的全基因组测序工作的昆虫基因的编码和非编码基因序列选择合适的功能基因组学研究手段开展研究。

5 进化树5.1 进化树的定义及形式利用DNA序列进行发育分析,推断并评价在分子水平上物种的进化关系,并用分支图的形式表现出来,这种图就是进化树。

进化树有多叉树,但通常情况是二叉树。

它分为有根(rooted)树和无根(unrooted)树两种。

有根树反映了树上物种的时间顺序,而无根树只反映分类单元之间的距离不涉及谁是祖先的问题。

也就是说,有根树的根节点为全部分类单元最近的共同祖先,它反映了分类单元间的进化关系,而无根树仅反映出分类单元间的分类关系[4]。

如图5.1,表示了4个物种(A、B、C、D)的2种有根树和1种无根树形式。

图5.1 4个物种(A、B、C、D)的2种有根树和1种无根树形式。

5.2 构建进化树的目的和作用构建进化树的目的是重塑物种(分类群)之间的进化关系,并以进化树的形式描述和展现:树的叶子结点代表某个序列的来源物种,数的拓扑结构表现了各物种间亲缘关系的远近,树的分枝长度刻画了进化树距离的大小。

根据进化树的拓扑结构可以研究生物蛋白质分子以及病毒、细菌以至大型哺乳动物等各种有机体之间的生物进化关系。

通过进化树的支长长度可以近似估计分类群的分化时间。

进化树的理论意义是在于它有助于了解物种的进化历史,为生物学中物种的分类提供可靠依据;实际应用价值在于它在预测DNA分子的高级结构、蛋白质、基因的表达过程、辅助药物设计、结构多序列比对等方面均有重要作用。

5.3 构建进化树的主要过程构建进化树的主要过程包括:1)获取同源序列数据2) 确定进化模型3) 进行多序列比对4)根据比对结果提取信息5)选择建树算法与参数构建进化树6 同源数据的获取所谓同源序列简单的说:是指从某一共同祖先经趋异进化而形成的不同序列。

NCBI(National Center for Biotechnology Information)美国国立生物技术信息中心,负责管理GeneBank。

GeneBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核苷酸序列。

GeneBank是最常用的数据库,同时还有DDBJ(DNA Data Bank of Japan)日本DNA数据库,以及EMBL(European Molecular Biology Laboratory)欧洲生物信息研究所的欧洲分子生物学实验室核苷酸数据库。

这三个中心都可以独立地接受数据提交,而且3个中心之间逐日交换信息,并制成相同的充分详细的数据库向公众开放。

因此,同源序列可以通过网络在NCBI等数据库中获取。

根据NCBI数据库记载,已经完成拼接或正在绘制的昆虫基因草图已有50多个。

7 构建进化树的方法及特点系统进化树的构建从方法上可以分为2类:距离法和离散特征法。

距离法首先构造一个距离矩阵,矩阵上的元素代表每两个生物之间的距离,利用不同的聚类方法得到系统进化树。

典型的基于距离的方法有UPGMA、NJ、和Fitch –Margoliash。

UPGMA只适用于进化树中各个分支进化速率相同的情况;NJ法能够较快地生成单一亲缘的进化树,但构建的进化树不够准确;Fitch-Margoliash法比UPGMA准确。

距离法是基于距离的聚类算法,运算量小,但不能确定进化分支时间。

离散特征法根据最优原则不同分为最大似然法(ML)和最大简约法(MP)。

ML和MP是基于特征或符号的构建进化树的方法,事先不需要规定距离测度计算距离矩阵,而是直接通过各分类群序列的碱基或氨基酸顺序来构建进化树。

其计算量比距离矩阵法大,对于大种系发育分析来说距离矩阵法比较常用。

距离法、最大简约法、最大似然法在分子序列间的分歧度不高且序列较多时往往构建出具有相似拓扑结构的进化树。

但是还是存在着存在拓扑差异。

因此有必要了解进化树的构建特点,以便对特定的序列选择合适的构建进化树的方法。

UPGMA(Unweighted Pair Group Method with Arithmetic mean)假设存在一个分子钟,即在进化过程中所有的核苷酸或氨基酸有相同的变异率。

在不同谱系间进化速率差异较大、有同源序列的平行进化或进化树的状态空间大示,一般不宜采用此方法。

NJ法经常被使用,它计算速度最快,并且构建的进化树相对准确。

相关主题