真菌基因组学研究进展真菌为低等真核生物,种类庞大而多样。
据估计,全世界约有真菌150万种,已被描述的约8万种。
真菌在自然界分布广泛,存在于土壤、水、空气和生物体内外,与人类生产和生活有着非常密切的关系。
许多真菌在自然界的碳素和氮素循环中起主要作用,参与淀粉、纤维素、木质素等有机含碳化合物及蛋白质等含氮化合物的分解。
有些真菌如蘑菇、草菇、木耳、麦角、虫草、茯苓等可直接供作食用和药用,或在发酵工业、食品加工业、抗生素生产中具有重要作用。
然而,也有些种类引起许多植物特别是重要农作物的病害,如水稻稻瘟病、小麦锈病、玉米腥黑穗病、果树病害等。
少数真菌甚至是人类和动物的致病菌,如白色假丝酵母Candida albicans等。
因此,合理利用有益真菌,控制和预防有害真菌具有重要意义。
本文整理了已完成基因组序列测定的真菌的信息,并对真菌染色体组的历史、测序策略及其基因组学的研究进展进行了评述。
1真菌染色体组的研究历史和资源1986年美国科学家Thomas Rodefick提出基因组学概念,人类基因组计划带动了模式生物和其它重要生物体基因组学研究。
阐明各种生物基因组DNA中碱基对的序列信息及破译相关遗传信息的基因组学已经成为与生物学和医学研究不可分割的学科。
由欧洲、美国、加拿大和日本等近百个实验室六百多位科学家通力合作,1996年完成第一个真核生物酿酒酵母Saccharomyces cerevisiae的基因组测序,这对于酵母菌类群来说是一个革命性的里程碑,并且激起了真核基因功能和表达的第一次全球性研究(Goffeau etal,1996)。
随后粟酒裂殖酵母Schizosaccharomyces pombe(Wood etal.2002)和粗糙脉孢霉Neurospora crassa(Galagan etal.2003)染色体组的完成显露出酿酒酵母作为真菌模式生物的局限性。
尽管如此,真菌染色体组测序的进展最初是缓慢的。
为加快真菌染色体组研究的步伐,2000年由美国Broad研究所与真菌学研究团体发起真菌基因组行动(fungal genome initiative,FGI),目的是促进在医药、农业和工业上具有重要作用的真菌代表性物种的基因组测序。
2002年2月FGI发表了第一份关于测定15种真菌基因组计划的白皮书。
2003年6月,真菌基因组行动发表了第二份白皮书,列出了44种真菌作为测序的目标,强调对其中10个属即青霉属Penicillium、曲霉属Aspergillus、组织胞浆菌属Histoplasma、球孢子菌Coccidioides、镰刀菌属Fusarium、脉孢菌属Neurospora、假丝酵母属Candida、裂殖酵母属Schizosaccharomyces、隐球酵母属Cryptococcus和柄锈病菌属Puccin&的物种优先进行测序。
之后,经过FGI、法国基因组学研究项目联(G6nolevures Consortium)、美国能源部联合基因组研究所(The DOE Joint Genome Institute,JGI)DOE联合基因组研究所、基因组研究院(The Institute for Genomic Research,TIGR)、英国The Wellcome Trust SangerInstimteSanger和华盛顿大学基因组测序中心等共同努力;得到包括美国国家人类染色体研究所、国家科学基金会、美国农业部和能源部等的资助,也有来自学术界和产业集团如著名的Monsanto、Syngenta、Biozentrum、Bayer Crop Science AG和Exelixis等公司的持续合作,在最近的几年里,真菌基因组学研究取得重大突破。
至2008年6月1日,共有3734种生物的全基因组序列测定工作已经完成或正在进行,公开发表812个完整的基因组,其中,70余种真菌基因组测序工作已经组装完成或正在组装,分别属于子囊菌门、担子菌门、接合菌门、壶菌门和微孢子虫(Microsporidia)的代表。
此外,还有Ajellomyces dermatitidis和Antonospora locustae等20余种真菌基因组序列正在测定中(Bemal etal.2001)。
这些真菌都是重要的人类病原菌、植物病原菌、腐生菌或者模式生物,基因组大小为2.5—81.5Mb,包含酵母或产生假菌丝的酵母、丝状真菌,或者具有二型性(或多型性)生活史的真菌,拥有与动物和植物细胞一样的的细胞生理学和遗传学特征,包括多细胞性、细胞骨架结构、生长发育、有性生殖、细胞周期、细胞间信号传递、牛理规律、DNA甲基化和遗传修饰等,充分体现具有9亿年进化史的真菌生物多样性。
由于真菌基因组较其他的真核生物而言相对简单,更容易被测序和注解,易于遗传操作和基因修饰,因而成为真核生物基因组研究的最佳模式生物。
真菌基因组学的研究特别是真菌比较基因组学的研究有利于生物进化、系统发生学、药物靶基因、基因发现以及基因功能等方面的研究(Hsiang&Baillie 2006;Xu etal.2006)。
2真菌基因组测序策略目前基因组测序主要有两种方法。
第一种是全基因组鸟枪测序法(WGS)。
Sanger(1977)首先采用这个方法对噬菌体φX174进行了测序,其基本原理是提取基因组DNA并进行酶切,然后将片断亚克隆至2kb的小嵌件库和10-20kb的大嵌件库中。
从两端开始对克隆进行测序(即正义链和负义链),然后组装成连续的叠连群(contigs),最终形成完整的基因组。
第二种方法是分级鸟枪测序法,跟WGS不同的是基因组DNA提取后被分解并亚克隆至100-500kb的BAC库中。
与此同时,也生成小一些的大小约为50kb的黏粒库或者。
2-10kb的质粒库。
这种分级策略所采用的叠连群最终被映射到已知的染色体位置上,序列的装配只需关注一个小范围内的基因组即可(Pevsner 2003)。
这种方法被广泛应用于基因组较大的真核生物基因组测序中,包括真菌基因组和已测序的人类基因组,同时由于Fosmids和BAC技术的应用,使高质量、连续的长片段序列组合成为可能。
比如在禾谷镰刀菌Fusarium graminearum的序列草图组合时,使用的框架序列长度达到了5.4Mb,甚至有的框架序列直接原封不动地来自于染色体(Galagan etal.2005b)。
尽管基因组测序取得很大进步,但仍存在一些技术挑战。
重复序列是装配WGS序列数据中存在的最大困难。
重复序列的适度水平改善了大多数真菌的装配问题。
然而,与端粒、着丝点和rDNA阵列关联的高度重复序列仍然是一个难题。
通常,这些区域在细菌库中是不被克隆的,然而在另外一些情况下这些区域被克隆和测序但是不能正确地装配。
虽然示踪分析(follow up analyzes)能准确地重建端粒,但是用于估计这些高度重复序列区域大小和位置的独立作图方法是必需的(Farman&Leong 1995;Li etal.2005)。
重复序列的一个特殊情况是二倍体。
在二倍体中,杂合子的范围可能横跨两个不同的染色体区域,在装配过程中低多形性区域不能正确合并,而高多形性区域通常是分离的,结果等位基因的差异很难与明显的旁系同源区分开来。
尽管这些复杂问题可以通过测序单倍体来避免,或通过测序一个紧密相联的辅助单倍体使之最小化,但在多数情况下,例如白色假丝酵母Candida albicans,测序一个二倍体是必不可少的(Jones etal.2004;Braun etal.2005)。
目前,科学家们正在研究新的装配法则,以便更精确地装配二倍体甚至多倍体的全基因组序列(Vinson etal.2005)。
面对真菌基因组测序的挑战,新的作图和测序技术应运而生。
至少HAPPY作图法(HAPPY mapping)和光学作图法(optical mapping)提供了无需克隆、将序列定位于染色体特定位点的染色体装配验证。
前者是随机地打断基因组DNA,经高通量筛选和PCR检测确定DNA标记的新技术,方法操作简单且不会产生大克隆库(Dear&Cook 1993)。
后者是最近研发的适用于染色体装配的技术,其方法是根据巨碱基长度的单一DNA分子图象产生的染色体范围内的限制性内切酶图谱,通过比较silico限制性酶切位点的顺序和距离,提供一个独立的装配验证(Zhou etal.2004)。
测序技术的改进也为进一步地加速真菌基因组学研究提供了保障,如粗糙链孢霉Neurospora crassa的基因组富含AT,不能利用细菌文库进行有效地克隆,由454生命科学实施的pyrosequencing 方法成功地解决传统测序方法所不能产生的基因组序列(Galagan etal2005b)。
此外,先进仪器的使用导致大量廉价基因组数据的产生,单一基因组测序的当前成本降低至使其能够测定5-100多个种或菌株的全基因组序列。
早期的基因组测序目标是产生高质量的个别菌株或种的参考序列,而现在新的测序技术促使科学家们描述更多亲缘关系菌株的分子多样性。
3真菌基因注释和真菌基因预测真菌基因注释是借助生物体中相似的线性基因结构分析完成的。
真菌基因组编码密度范围为37%-61%,与其他真核生物一样,真菌基因密度与基因组大小成反比。
真菌基因编码序列长度平均在1.3-1.9kb。
尽管真菌显示出基因结构的显著多样性,但相对后生动物而言,真菌基因几乎不被内含子所间隔。
真菌内含子密度范围多样,担子菌如新型隐球酵母Cryptococcus neoformans的每个基因含5-6个内含子(Loftus etal.2005);许多最近测序的子囊菌平均每个基因含1-2个内含子(Borkovich etal.2004;Dean etal.2005);而半子囊菌啤酒酵母中总共不到300个内含子(Goffeau etal.1996)。
另外,真菌内含子很小,许多子囊菌的内含子平均只有80-150bp,而担子菌类的新型隐球酵母的内含子较为例外,平均大小为68bp且拥有许多小至35bp的内含子(Loftus etal.2005)。
真菌内含子的结构多样性为其进化研究提供了独特的机会。
大多数真菌相对简单的基因结构促进了基因的准确预测。
然而,许多真菌种类缺乏重要的EST数据库,使真菌基因预测依赖于de novo基因预测。
假使真菌种问的外显子和内含子特征有很大区别,那么关于生物体特征性数据库的基因预测工具的研发是非常重要的,de nOVO基因预测工具为基因预测提供了条件,这些工具包括GenelD(Guigo etal.992),FGenesh和FGenesh+(Salamov&Solovyev 2000),SNAP(Korf2004),Augustus(Stanke鲥以2004)和GlirnmerM(Salzberg etal. 1999)。