作者简介沈春修(1979-),男,湖南溆浦人,硕士,助教,从事水稻遗传育种与抗病分子机制方面的研究。
收稿日期2007!04!01基因的研究是指在许多基因同时存在的基础上对多个基因同时进行研究,分析各自与它们之间的结构与功能的相互关系。
因而它至少涉及3个相关领域:结构基因组———主要关心DNA碱基序列水平上的基因结构;比较基因组———寻找种内、种属间产生基因结构差异的分子基础,以期获取与目的性状相关的基因;功能基因组———着重研究基因与其表达产物及功能活性的调控关系。
结构基因组是其他领域的基础,比较基因组为功能基因组研究提供等位基因,蛋白质组则是在蛋白质水平上分析基因表达的功能基因组研究的派生分枝。
生物信息学是在前面三者研究的基础上,获取、整理、综合分析提取大量已有复杂生物数据的新学科,对相关学科的研究有很大的推动作用。
1生物信息学在结构基因组中的应用随着化学分析方法的改进,DNA测序水平的提高,科研成本的降低,已开始对多种模式生物进行基因组全序列的测序。
如拟南芥和水稻的全基因组测序,将来会有越来越多的重要作物基因组被全测序。
因而,今后的工作重点将是基因组中信息的分析与鉴定,对植物抗性基因来说,是分析鉴定其组织结构及其相关调控序列的鉴定。
结构基因组的研究对抗性基因的研究有许多指导意义。
在现在已知的许多种已克隆的抗性基因(不含Hm1和Hm2)中,分析其序列结构,都含有或部分含有核苷酸结合位点(NBS),富含亮氨酸重复(LRR),跨膜结构域(TM)以及丝氨酸-苏氨酸激酶(STK)保守序列。
根据已知抗性基因都含有NBS序列的特征,从测序结果中可预测某一生物中含有与抗性基因有关的基因数目有多少[1]。
在拟南芥与水稻测序的过程中,发现许多与抗性有关的NBS序列。
在已测序的拟南芥67Mb中(相当于大于50%的拟南芥基因组序列),有120个可预见的基因产物与植物抗性基因的NBS结构相似[2]。
假设剩余的另外50%未知基因也按这样的比例分布,那么拟南芥中将有200个左右的基因与抗性有关。
在这些与抗性有关的200个基因中,它们要么是编码信号传导的组分,要么是编码抗微生物的蛋白,这些基因序列的总长度大约占拟南芥总基因数的1%。
而在水稻中,通过对重叠的BAC克隆末端序列分析(占全部水稻基因的5%)来看,大约有750 ̄1500个基因具有编码NBS的能力[3-5]。
从已知抗性基因的定位结果来看,NBS序列在拟南芥基因组中倾向于成簇排列。
测序结果也表明,植物中的抗性基因一般与抗性基因的多种同源共生序列在一起,共同组成高度重复区域,这种区域统称为基因簇。
Rpp5基因簇包含8 ̄10个同源序列,散布在90kb的区域上,并且被蛋白激酶的假基因与反向转座子等隔开。
Cf!4/9基因簇由5个抗性基因同源序列组成,散布在36kb的区域内,Cf!4/9的同源序列被Lox基因隔开,成为高度重复区域。
Pto基因簇包含5个同源序列,分布在60kb的区域内,这其中的Prf基因编码NBS!LRR,对Pto基因的功能是必需的。
Dm3基因是目前已知的最大的抗性基因,至少由24个抗性基因同源序列组成,横跨3.5Mb。
因而,随着更多模式植物的全基因组测序的完成,人们可以从基因组测序信息中直接读出有用数据,分析寻找抗性基因的组织结构特征与分布规律。
2生物信息学在比较基因组学中的应用随着多种生物的全基因组测序完成,有越来越多的数据可以直接利用。
首先,通过比较多种属植物抗性基因的定位特点,发现抗性基因大多定位在较不稳定的区域,其区域的结构不很保守,如拟南芥的抗性基因RPM1的同源序列在感病表型的植株上丢失[6]。
进一步研究发现,抗性基因的位置要么是端粒区域,要么是接近着丝粒区域。
例如,通过原位荧光杂交分析得知:莴苣的两抗性基因分别定位在端粒区域与接近着丝粒区域,高粱Rpg1基因位于端粒区域,番茄的Mi基因位于异染色质的着丝粒边缘[7]。
第2,通过测序分析,可以确定基因成簇的模式与范围,通过比较种属间亲缘关系,来预测某一功能相似的基因在其他物种中的位置。
进而根据已克隆的抗性基因间的相似性,可以采用适当的引物进行PCR扩增获得抗性基因的候选序列,而且这些候选序列的片段均可定位到已知的抗性基因的位置上[8]。
从现在公开的数据中,比较多种NBS基因的相似性,用PCR获得了130个候选抗性基因,此数据将继续增长。
第3,比较基因组的另一作用在于可以区分同源区域与同源共生区域。
这对本身就位于同源共生区域的抗性基因家族可能困难,但是抗性基因相关序列的种间比较结果显示:同源区域比同源共生区域更加相似。
这提示:物种为了赶上病原菌的变化步伐而采取快速进化来抵抗随时间而变化的病原群体。
通过分析拟南芥的RPm1基因侧翼序列也得到这样的结论。
第4,比较基因组学也可对某特定等位基因的变化的分子基础进行研究[9]。
至今,只有极少数通过同源重组,实现蛋白质结构域的域置换试验成功。
这些结果显示NBS!LRR编码基因的LRR区域是非常重要的,但它不是专一性的唯一决定簇。
随着测序效率的提高,将建立抗性基因相关序列的数据库,这些序列信息可作为基因步行试验的模板,为克隆新的抗性基因提供极大的帮助。
第5,比较基因组作图表明,染色体上的DNA标记排列具有共线性[10]。
如小麦的基生物信息学在基因组学中的应用沈春修(宜春学院,江西宜春336000)摘要随着计算机科学、物理学、数学等与生命科学的相互渗透和交叉,生物信息学愈来愈显示出其重要性,尤其是在抗病基因的研究中。
笔者从结构基因组、比较基因组、功能基因组与生物信息学等方面论述了生物信息学在基因组学中的应用。
关键词抗性基因;结构基因组;比较基因组;功能基因组;生物信息学中图分类号Q78文献标识码A文章编号0517-6611(2007)20-06054-02安徽农业科学,JournalofAnhuiAgri.Sci.2007,35(20):6054-6055,6057责任编辑王淼责任校对王淼因组很大,并且含有大量的高度重复序列,利用图位克隆分离基因很困难。
根据水稻与小麦的共线性可从水稻分离相关基因。
另外,比较基因组学将对研究抗性基因的进化、亲缘关系远近等提供分子水平的证据,并为模式生物的基因组测序后的序列拼接提供很大参考,为功能基因组研究提供等位基因系。
3生物信息学在功能基因组中的应用目前,通过分析大量的DNA测序数据和基因表达产物,更加深入地解析了基因与蛋白质的功能关系。
广泛的基因组水平上的蛋白质构象分析及蛋白质-蛋白质相互作用的研究在动物、微生物上已较深入,应用于植物也是不久的事情。
对于模式植物如拟南芥,每个潜在基因的插入或缺失均可通过突变体找到,目前突变体的数目仍在增多。
通过近几年的研究发现,同一个基因可在不同条件下、不同器官、不同个体中获得表达,这将为解开基因的调控模式发挥重要作用。
尽管目前植物表达基因的分析仍处于初级阶段,但它的潜力正在被大家所认识。
首先,DNA芯片技术的应用可获得大量表达信息[11-12]。
当病原植物相互作用时,相容的与不相容的差异表达基因可通过DNA芯片技术捕捉到。
对那些植物与病原相互作用时表达的基因和过去未知的在抗病与感病植株中参与表达的基因,通过DNA芯片技术将获得综合的表达水平的数据。
如第一代含有1500ESTs/基因的特有玉米DNA芯片鉴定了被真菌Cochlioboluscarbonum感染6h后诱导表达的117个基因[13]。
比较共同被调控的基因的调控区域将揭示潜在的调控序列与控制表达的调节模式。
其次,由表达水平获得的数据可能包含某一特定基因的功能,但此功能仍需从基因对基因水平上确证,这种确证需借助多个基因共存的条件下植物-病原物相容或不相容时诱导表达的蛋白情况来确定[14-15]。
当病原植物相互作用时,许多蛋白可被诱导表达,但只有很少数在抗病时及时表达。
目前常用的方法是通过表型鉴定,再到测序区域候选基因的筛选,只可补充上述相关数据的不足,候选基因法不能准确鉴定某个基因。
因而需要一些新的方法,如反义RNA抑制或有义RNA竞争抑制被用来鉴定多基因家族中某个成员是否编码某一个特定蛋白;反向遗传分析法对检测基因功能也是必需的。
第3,在植物基因组中,编码NBS!LRR蛋白的基因是最为广泛存在的基因之一,但其功能未知[3,5]。
他们的序列结构域与已知的蛋白质数据库中数据比较显示,他们可能参与信号通路的开始,揭示的NBS!LRR编码基因证明参与了抗病与抗虫。
然而不能排除他们参与植物生物学其他方面如发育、对不良环境的应答等的可能性。
从现在已知的很少数据可以得出,绝大多数具有NBS!LRR编码基因似乎都是低水平组成型表达,因而不能直接通过广泛的表达产物来分析他们的功能。
然而通过诱导NBS!LRR编码基因的下游基因的表达作为特征,来直接区分抗性基因的不同层次,并提供被NBS!LRR基因调控的调控表达的线索。
总之,功能基因组的研究为研究基因的功能及研究该基因的调控模式提供工具,尤其是对抗性基因的研究,将会使人们弄清抗性基因成簇的原因,成簇基因又是如何选择性专一表达等问题。
4生物信息学的展望生物信息学作为一门新兴学科正在迅速发展。
在已公开的或私人数据库中可得到大量的DNA基因组信息和EST序列数据,现在仍然以指数级的速度递增。
目前对这些表达序列数据的分类和利用更为重要,需要全球性的广泛的合作与交流,采用更加先进的技术和智能机器人对获取、整理与提取这些数据将大有帮助[18]。
为此,美国专门成立一个关于植物NBS编码序列的系统数据库的国家基因研究中心,通过因特网可直接查询到原始数据记录和相关的数据库。
任何科研人员通过现有的高效计算机软件如PSI!BLAST(positionspecificinteratedBLAST)均可获得远距离的同源序列鉴定分析[7,19]。
目前已开始从单个抗性基因的鉴定克隆转移到抗性基因表型的全面分析[21]。
可以预测,在不久的将来,不用通过实验鉴定,在计算机上通过序列比较和功能模拟分析,就能预测新克隆的抗性基因的功能。
大规模的新方法、新技术的应用,将为获取新抗性基因并使之变成可操作利用提供机会。
而事实上抗性基因仅在那些受到病原攻击而引起反应的部分细胞中低水平表达。
因而在将来人们可以专门设计那些能识别病原体的基本成分,并能诱导启动适当应答途径产生抗性的抗性基因。
参考文献[1]DEVOSK,BEALESJ,NAGAMURAY,etal.Arabidopsisrice:willcolinearityallowgenepredictionacrosstheeudicotmonocotdivide[J].GenomeRes,1999,9:825-829.[2]MEYERSBC,DICKERMANAM,MICHELMORERW,etal.Plantdiseaseresistancegenesencodemembersofanancientanddiverseproteinfamilywithinthenucleotide!bindingsuperfamily[J].PlantJ,1999,20:317-332.[3]LIESTERD,KURTHJ,LAURIEDA,etal.Rapidreorganizationofresistancegenehomologuesincerealgenomes[J].ProcNatlAcdSciUSA,1998,95:370-375.[4]MICHELMORERW,MEYERSBC.Clustersofresistancegenesinplantsevolvebydivergentselectionandabirth!and!deathprocess[J].GenomeRes,1998,8:1113-1130.[5]BEVANM,BANCROFTI,BENTE,etal.Analysisof1.9Mbofcontiguoussequencefromchromosome4ofArabidopsisthaliana[J].Nature,1998,391:485-488.[6]STAHLlEA,DWYERG,MAURICIOR,etal.DynamicsofdiseaseresistancepolymorphismattheRpmllocusofArabidopsis[J].Nature,1999,400:667-671.[7]ZHONGXB,BODEAUJ,FRANSZPF,etal.NovelDNAsequenceorganizationinricegenome[J].TheorApplGenet,1999,98:365-370.[8]SHENKA,MEYERSBC,ISLAMFAIDI,etal.ResistancegenecandidatesidentifiedbyPCRwithdegenerateoligonucleotideprimersmaptoclustersofresistancegenesinlettuce[J].MPMI,1998,11:815-823.[9]ELLISJG,LAWRENCEGJ,LUCKJE,etal.IdentificationofregionsinallelesoftheflaxrustresistancegeneLthatdeterminedifferencesingene!for!fenespecificity[J].PlantCell,1999,11:495-506.[10]LLQI,GILLBS.Plantdiseasegenes:Functionmeetsstructure[J].TheorApplGenet,1996,103:998-1006.[11]LEMIEUXB,AHARONLA,SCHENAM.Structuraldiversityofleucine-richrepeatproteins[J].MolBreeding,1998,4:277-289.[12]BSLOWIND,CRANEV,RICED.Acomparisonofgelbased,nylonfilterandmicroarraytechniquestodetectdifferentialRNAexpressioninplants[J].CurrOpinPlantBiol,1999,2:96-103.[13]MORRISSW,VERNOOIJB,TITATARNS,etal.Inducedresistanceresponsesinmaize[J].MPMI,1998,11:643-658.[14]BRAZMAA,JONASSENI,VILOJ,etal.Predictinggeneregulatoryelementsinsilicoonagenomicscale[J].GenomeRes,1998,8:1202-1215.[15]KITAJIMAS,SATOJ.Plantpathogenesisrelatedproteins:molecularmechanismsofgeneexpressionandproteinfunction[J].JBiochem,1999,125:1-8.(下转第6057页)沈春修生物信息学在基因组学中的应用35卷20期6055(上接第6055页)[16]TANGX,XIEM,KIMYJ,etal.OverexpressionofPtoactivatesdefenseresponsesandconfersbroadresistance[J].PlantCell,1999,11:15-30.[17]BAULCOMBEDC.Fastforwardgeneticsbasedonvirusinducedgenesilencing[J].CurrOpinPlantBiol,1999,2:109-113.[18]RICHARDMICHELMORE.Theevolutionofdiseaseresistancegenes[J].PlantBiotechnology,2000,29:125-131.[19]THIEFFRYD.Fromglobalexpressiondatatogenenetworks[J].BioEssays,1999,21:895-899.[20]VANDERBIEZENEA,JONESJDG.TheNB-ARCdomain:anovelsignallingmotifsharedbyplantresistancegeneproductsandregulatorsofcelldeathinanimals[J].CurrBiol,1998,8:226-227.[21]LEOS,MELCHERSANDMARTENH,STUIVER.FactorsinfluencingAgrobacteriummediatedtransientexpressionofGusAinrice[J].Plantbiotechnology,2000,7:147-152.乙酰转移酶和脱乙酰酶的化学修饰;另一类是依赖ATP的物理修饰,利用ATP水解释放的能量解开组蛋白和DNA的结合,使转录得以进行。