第十一章 基因的起源与进化
• 研究发现其3’端外显子与ATP合成酶F链具有同源性,但不含内含子,其 两端有短的重复序列(TTCG),并且在3’末端有poly(A)序列,这些证据指 示此外显子是由ATP合成酶F链逆转座插入产生的。而sphinx基因5‘端的 调控序列及外显子被推测是由原先已存在的基因所贡献,这2部分通过 外显子重排形成一新的嵌合基因。sphinx基因具有多种剪切形式,并且 有的剪切形式具有性别表达特异性
• • • • • •
Adh and Adhr genes of Drosophila one is their significant sequence similarity (about 40% amino acid identity); the other their common intron/exon structure Adh functions to detoxify dietary alcohols but Adhr has unknown function Adh and Adhr were separated by 300 bp in D. melanogaster. two kinds of transcripts: Adh and both genes Recent data on the expression of Adhr in D. lebanonensis and D. buzzatii suggest that the co-transcription is the primitive state
精卫基因 (Jingwei)
• 通过对黑腹果蝇近缘物种新基因的筛选和 分析, 1993年,华裔学者龙漫远发现了第 一个年轻的基因。他根据我国远古精卫溺 死而又重生的故事,把这一基因称为“精 卫”基因(jingwei)。
精 卫 填 海
• 又北二百里,曰发鸠之山,其上多柘木。有 鸟焉, 其状如乌;文首、白喙、赤足,名曰精卫。 是炎帝之少女名曰女娃,女娃游于东海,溺而不 返,故为精卫。常衔西山之木石,以堙于东海。 ——《山海经 · 北山经》
②基因复制(Gene duplication)
• 基因重复是人们最早认识到的新基因产生机制。 • 这个经典的机制认为,通过重复产生的冗余拷贝, 由于不受或很少受到选择压力,不断积累各种突 变,最终可能与原基因产生分化,形成具有新生 物学功能的基因,而祖先拷贝仍保持原来的功能。 现在科学家已经确认,基因重复是新基因产生的 重要来源之一。 • 许多新的基因功能都是通过基因复制进化来的, 而且对不同种生物的发育程序的进化起了巨大的 作用。同样,在染色体片断和基因组水平的复制 对人类的新功能的产生和进化也起了重要的作用。
因此,科学家迫切需要一些年 轻的新基因起源实例,作为近距 离观察新基因起源的分子机制和 进化的动力学过程的研究材料。
新基因起源研究现状
• 人们对新基因起源问题的兴趣,可以追溯到上世纪30 年代。Haldane和Muller提出:通过基因重复可以产生 新的基因。 • 此后随着分子生物学实验手段的进步和遗传学的发展, 染色体重复、基因家族和断裂基因等大量实验现象进 入人们视野,在此基础上提出了一些新基因产生的假 说。
hamster Acrystallin gene
• low-density lipoprotein (LDL) receptor • Patthy surveyed protein databases systematically and showed that exon shuffling occurred in many genes of vertebrate and invertebrate organisms. • New genes created by exon shuffling in plants were also observed (e.g. in potatoes and sunflowers).
基因是怎样产生的?
• 如果弄清基因形成和固定机理,科学家就 能深入探讨物种的形成和分子进化、物种 进化之间的关系,也能根据基因产生的规 律设计新的生物活性药物。 • 所以说,研究基因的起源机制,实际上是 探究生命演变的根源,同时也具有重要的 应用科学意义。
■被称为“生命编码”的基因序列,记录着最原 始最真实的生命进化信息。
• 20世纪80年代中期以后大规模基因组序列信息的获得 以及分子进化和群体遗传学理论的成熟,更使得在基 因组水平的理论预测成为可能。
然而由于基因组中的大多数基因产生太早,在漫 长的进化时间中积累的大量突变早已湮没了大部分 重要的进化信息,无论是基因最初产生的分子机制 或是随后在群体中扩散并最终固定下来的群体动力 学过程,都已无法直接观察和检测。 20世纪90年代以前,有关这一问题的探讨基本上 是设想性或理论性的。人们迫切需要能够获得一些 年轻的新基因起源的实例,使人们能够以实验的手 段近距离观察并阐明新基因起源的分子机制和进化 的动力学过程。
基因的 起源与进化
The origin and evolution of new genes
随着基因组数据的大量积累,人们越来越认识到 不同生物在基因组大小及基因数目上存在巨大的差 异。从仅含470个基因的支原体 Mycoplasma genitalium到约含3万多个基因的人类 基因组,相差达数十倍;即使是果蝇等分化时间很 短的近缘物种,其基因种类和数目也不尽相同。这 种差异引出一个根本性的生物学问题:
③逆转座(Retroposition)
• 逆转座是指转录产生的RNA通过逆转录合成cDNA插入到基因 组的过程。 • 由于通过逆转座产生的新拷贝一般不含启动子和调控序列, 使得大部分产生的序列成为假基因。然而,在特殊情况下, 逆转座序列通过原基因不正常转录携带有启动子,或者插入 到基因组后获得外源调控序列而具有表达活性,进而可形成 新的表达特异性或新的功能。 • 所以一个有功能的逆转录转座基因呈现出一种嵌合结构-逆 转录转座的编码区域和一个新的5’端调控序列。或是逆转录 转座的编码区域和一个从整合靶位点附近招募的新的基因片 断-这会导致新的嵌合机制具有和亲代基因不同的生物学功 能。
(Sources and evolution of new genes )
研究一个新基因的起源的两个步骤
• 首先,我们要知道一个新的基因结构在自 然界的某一生物个体产生的突变步骤。
• 其次,我们需要知道这一单一个体的新基 因扩散到一个物种所有个体的固定过程。
新 基 因 产 生 的 分 子 机 制•
⑤基因水平转移(移是指遗传物质从一个物种通过各种方式转移到另一 个物种的基因组中。在原核生物中,转化、转导、接合和转染等 现象是频繁发生的。因此,基因水平转移对原核生物的基因组贡 献是相当大的。例如一种毛滴虫通过水平转移获得嗜血菌的一种 裂解酶,该裂解酶通过插入获得了24个氨基酸构成的一段信号肽, 其功能也因此而出现变化,使其由胞内酶变成了胞外酶。 Ochman 等人发现一些细菌基因组的16%是通过基因水平转移获得的。 • 尽管这种侧向的、或水平的基因转移可以导致同源基因的交换, 但是有证据表明它可以招募新的基因并提供新的表型;比如使良 性细菌转变为病原体。 • the gene encoding N-acytylneuraminate lyase in the protozoan Trichomonas vaginalis shares 80% identity with the neuraminate lyase bacteria Haemophilus influenzae in protein sequence
AFGP, antifreeze glycoprotein; CG, chorionic gonadotropin polypeptide; Cid, centromere identifier; DAF, decay-accelerating factor; HLA-DR-1, major histocompatibility complex DR1; PGAM3, phosphoglycerate mutase 3; Pgk2, phosphoglycerate kinase 2; PMCHL, pro-melanin-concentrating hormone-like; RNASE, ribonuclease; Sdic, sperm-specific dynein intermediate chain; UEV, tumour susceptibility gene.
斯芬克斯(sphinx)
• 迄今发现的第一个年轻的RNA基因—— sphinx(司芬克斯)基因 ,sphinx的发现揭 开了基因组中众多非蛋白编码RNA基因 (ncRNA)起源发生研究的第一页。对 sphinx及其所在果蝇4号染色体的深入研究 推翻了遗传学界近百年的一个错误认识, 即该染色体无交换重组。
• 根据重复区域的大小,基因重复可分为单 个基因重复、部分基因组重复(segmental duplication)和整个基因组重复(genome duplication)即多倍体化。单个基因和部分基 因组的重复主要通过不等交换产生,而基 因组重复是有丝分裂或减数分裂过程中发 生错误产生的。
• 利用果蝇、酵母、线虫、鸡、鼠和人的全基因组 信息对基因重复的频率做了保守的估计,约为每 基因每百万年0.01次。 • Saccharomyces, C. elegans, Arabidopsis, Drosophila melanogaster, and H. sapiens • Percentages of the genes that belong to identifiable families of duplicates in these genomes are 30, 48, 60, 40, and 38% of the genome, respectively • by far, the most general and important mechanism to generate new copies of genes is the duplication of genes and/or genomes