中国基础科学综述评述
20096ChinaBasicScience15生物基因组非蛋白质编码转录组学及研究进展
姜宁1陈启军2
1.中国医学科学院吉林大学人兽共患病联合研究中心人兽共患病研究教育部重点实验室,长春130062
2.中国医学科学院病原生物学研究所,北京100730
收稿日期:2009913修回日期:2009121
联系作者:陈启军,教授,cq@jjlu.edu.cn。摘要RNA转录组学和功能组学的研究是
目前生命科学领域的重要研究方向。生命的
中心法则(由DNA转录RNA,再由后者翻译
成行使各种功能的蛋白质)因调控RNA分子
的发现而进一步得到扩展。最近的大量研究
发现,自基因组中非蛋白质编码区转录的
RNA分子具有重要的调控功能,即转录后的
调控功能。在这些RNA分子中,内源性小干
扰RNA分子、microRNA及piwiRNA等的功
能逐渐被揭示。本文对目前有关RNA转录组
学研究进展做一简要综述。
关键词:RNA转录组小RNAsiRNAmiRNA
piRNA
中图分类号:Q7文献标识码:A
文章编号:10092412(2009)06001505
一、引言
生物物种遗传物质的组成随着物种进化程度的
提高而逐渐趋于复杂。然而随着大规模基因组测序
的完成,人们发现很多生物(包括小鼠和人)遗传物
质组成的主要差异不是在蛋白质编码区而是在基因
组中的非编码(noncoding)区。生物物种的种源进
化程度越高,其基因组中非蛋白质编码序列的组成
比例越高[1],如人类基因组中编码蛋白质的DNA只
占基因组的2%左右。长期以来,对基因组序列的研
究多集中在对编码区的分析上(如基因的序列组成,
编码蛋白质的表达、功能及调控规律等)。由于非编
码区的序列多含有一些假基因(pseudogenes)、转座子(transposon或transposableelements)及大量的内
含子和重复序列,其潜在的功能一直为研究者们所
忽视。多年来人们一直将基因组中非编码序列认为
是生物进化过程中形成的垃圾成分(junkDNA)[2]。
然而,随着大规模转录组学(transcriptomics)研究的
进行,发现基因组中绝大部分DNA在细胞活动过程
中都是被转录成RNA的[3],如人类基因组DNA有
93%以上都被转录成RNA,小鼠基因组的转录部分
也达到63%以上[3]。这些RNA有的呈单链存在,有
的以双链形式存在。对RNA转录组的研究经历了
小RNA的发现、大规模RNA转录组的测定到目前的
RNA调控功能的分析和确定等阶段[38]。RNA转录
组学和功能组学的研究是目前生命科学领域的重要
研究方向。
二、基因组中非编码区转录产生的
RNA分子种类及功能
根据RNA片段长度的不同,自基因组中转录的
RNA分子包括短片段RNA(shortRNA)和长片段
RNA(longRNA)[1,7,9,10]。短片段RNA分子主要包括
反式剪切引导RNA(transsplicingleaderRNA,SL
RNA)、microRNA(miRNA)、内源性小干扰RNA(en
dogenoussmallinterferingRNA,siRNA)、piwi蛋白质
结合RNA(piwiRNA,piRNA)和一些编码寡肽的小
mRNA分子[11]。内源性小RNA(endogenoussmall
noncodingRNA,snRNA)是一类从基因组中非蛋白
质编码区转录而来的小RNA分子。目前对内源性
snRNA的研究主要集中在对SLRNA、siRNA和miR
NA等的发现及功能分析方面。这些小RNA主要通
过影响mRNA的成熟过程及稳定性进而调节转录因
子或其它功能蛋白质的表达和发挥转录后的基因调
控功能(posttranscriptionalgeneregulation,PTGR)。
longRNA主要指mRNA前体(hnRNA)、mRNA和一
些不编码任何蛋白质的长的单链或双链RNA片段。中国基础科学综述评述
20096ChinaBasicScience16本文只对内源性非蛋白质编码的小RNA分子的产
生机制及功能做一介绍。
1.SLRNA
很多真核生物mRNA的成熟过程是通过顺式
(cis)和反式剪切(transsplicing)两种方式完成的。
顺式剪切是将mRNA前体中对应于内含子(intron)
部分的序列剪切掉,使对应于外显子的RNA序列连
接起来,进而形成一个完整的读码框架。反式剪切
过程包括剪切引导RNA(splicingleaderRNA,SL
RNA)以及mRNA的转录和连接过程。SLRNA和
mRNA从基因组中的不同序列转录而来。SLRNA
的长度在90150bp之间,其二级结构含有一或两
个典型的发卡结构、一个RNA剪切复合体结合序列
和一个保守的剪切位点。剪切后的序列的3端都含
有一个AUG密码子。SL被最终连接到mRNA上。
很多真核生物都存在mRNA的反式剪切过程[12]。例
如,锥虫的初始mRNA分子的5端均不完整,缺少
正常的UTR(包括甲基化的帽状结构)序列和起始密
码子等[13]。而这些UTR需要由散在于基因组中的
SLRNA基因转录后,经过一系列的修饰再连接到各
个mRNA的5端。在日本血吸虫的基因组中含有
55个散在分布的SLRNA基因。每个基因所转录的
RNA长度为90n,t这些RNA引导序列含有两个典型
的发卡结构和一个RNA剪切复合物识别位点。这
些RNA在转录后由RNA剪切复合物剪切成长为
36nt和54nt的两个RNA片段。前一个SL片段被连
接到mRNA上。目前的研究发现,多数生物的基因
组中均含有一个SLRNA编码序列,只是SLDNA的
拷贝数不尽相同,如日本血吸虫基因组中含有55个
SL拷贝,曼氏血吸虫含有61个SL基因拷贝。而在
秀丽杆线虫(C.elegans)的基因组却含有两种序列不
同的SL基因(SL1和SL2)[14],在反式剪切的mRNA
中,80%以上的mRNA含有SL1RNA,少数mRNA含
有SL2RNA。在旋毛虫基因组中则含有15种序列
不同的SL基因,而且同一mRNA分子上可以连接不
同的SLRNA[15]。由此可见旋毛虫在基因调控机制
上较其它线虫更复杂,也进一步说明其在进化上与
其它生物存在明显的差异[16]。
关于SLRNA的转录及反式剪切在基因转录后
的调控功能还有待进一步研究。目前认为反式剪切
的作用主要有3个方面:一是为mRNA提供5端帽
状结构和AUG起始密码子[17],即参与mRNA的成熟
过程。一般认为,mRNA前体(premRNA)的3UTR过长或过短都不利于表达。另外,只有SL提供的
AUG才是真正的起始密码子,premRNA内部的
AUG不能为核糖体所识别;二是增加mRNA的稳定
性,不含SL系列的mRNA多容易降解;三是最近的
研究发现,SLRNA还含有microRNA序列[18],而mi
croRNA具有重要基因调控作用。目前有关反式剪
切在后生动物基因调控中的功能还没有完全一致的
结论,尽管已发现日本血吸虫的反式剪切过程主要
发生在虫体发育的初期(虫卵和尾蚴)阶段,但其在
虫体发育调控过程中起到的作用还有待进一步
确定。
2.内源性小干扰RNA(siRNA)
Fire等于1998年报道的RNA干扰(RNAinter
ference,RNAi)是通过将短(23bp左右)的双链RNA
(称作干扰RNA,即iRNA)分子或编码双链RNA的
质粒以生物化学或物理学的方法转化到秀丽杆线虫
细胞后,发现iRNA可以通过一系列的酶解(通过一
个称作Dicer的RNA酶的作用)过程,抑制功能蛋白
质的表达[19]。这种RNAi的基因调控过程是通过外
源性RNA分子的作用实现的。2004年人们发现,在
基因组中的一些区域存在编码类似iRNA的分子,这
些内源性iRNA被称为内源性siRNA。siRNA都是
在细胞内形成的双链RNA分子。
siRNA的来源有以下几种:
(1)自转座子转录而来(称作TEderivedsiR
NA)。转座子是基因组中通过两侧的重复序列和转
座子酶的作用在基因组内反复复制和跳跃的DNA
片段。转座子的种类很多,如LTR(longterminalre
peats)、LINE(longinterspersednucleotideelements)、
SINE(shortinterspersedelements)等。这些转座子在
基因组中可串联排列,也可散在分布。转座子是内
源性siRNA的主要来源。两个序列相同的转座子基
因(可以是相互串联的,也可能是位于基因组不同的
位置)从相反方向转录后的单链RNA可形成互补的
双链RNA(doublestandRNA,dsRNA),dsRNA再经
DicerRNA酶剪切成小(2023bp左右)的双链
RNA[20,21]。日本血吸虫的siRNA主要由LINE、
SINE、TIR和MITE等转座子基因转录而来。人类基
因组中有大约45%的成分来自转座子序列,可想而
知由其产生的siRNA的作用是非常重要的。最近的
研究发现,不同生物在siRNA的生成(biogenesis)序
列区域上有很大的差别。如果蝇,一个转座子的整
个基因序列的转录产物都能形成siRNA[22];而在日