植物基因功能诠释研究方法的新进展(东北农业大学,150030)摘要:本文通过阅读大量的文献,总结了植物基因功能注释研究方法的最新进展。
对每种方法的原理及优缺点做了综述,拟供初学者和作相关研究者参考。
关键词:基因功能;研究方法;新进展基因组研究应该包括两方面的内容:以全基因组测序为目标的结构基因组学(struc tural genomics)和以基因功能鉴定为目标的功能基因组(functional genomics)。
结构基因组学代表基因组分析的早期阶段,以建立生物体高分辨率遗传、物理和转录图谱为主。
功能基因组学代表基因分析的新阶段,是利用结构基因组学提供的信息系统地研究基因功能,它以高通量、大规模实验方法以及统计与计算机分析为特征。
功能基因组学(functional genomics)又往往被称为后基因组学(postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质的研究转向多个基因或蛋白质同时进行系统的研究。
[1,2]这是在基因组静态的碱基序列弄清楚之后转入基因组动态的生物学功能学研究。
研究内容包括基因功能发现、基因表达分析及突变检测。
基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析。
新的技术应运而生,包括基因表达的系统分析,cDNA微阵列,DNA芯片等。
鉴定基因功能最有效的方法是观察基因表达被阻断或增加后在细胞和整体水平所产生的表型变异,因此需要建立模式生物体。
自华大基因启动“千种动植物基因组参考序列谱构建计划”和“千种植物转录组研究”以来,已完成水稻、黄瓜、马铃薯、白菜等植物的基因组序列图谱绘制,并通过对大豆的重测序研究建立了高密度分子标记图谱。
这将是21世纪生命科学研究的重要领域。
[3]本文将对研究基因功能的新技术及其新进展作一综述。
1 利用生物信息学方法分析基因的功能生物信息学是利用生物信息学和电子技术(互联网技术)寻找并克隆新的未知功能的基因,着重于技术和操作层面,利用生物信息学对新基因进行电子克隆,及克隆该新基因的序列后对其进行简单的功能分析,如基因的编码区、启动子区、内含子/外显子、翻译启始位点和翻译终止信号预测,基因的同源比对,编码的氨基酸辨识蛋白质,蛋白质的物理性质,蛋白质的二级/三级结构、特殊局部结构以及功能预测等[4]。
1.1 通过序列比对预测基因功能序列比对是生物信息学最基本的分析技术之一,最常用的方法是将目的DNA或蛋白质序列与已知的DNA和蛋白质序列数据库进行比对,搜索到与目的序列高度同源的功能已知的基因或蛋白质,用这些基因和蛋白质预测目的基因和蛋白质的功能。
局部比对搜索工具BLAST是进行序列比对的基本工具,它允许用户选择一条查询序列与一个数据库进行比对,找到数据库中与输入的查询序列相匹配的项。
BLAST 是一个序列数据库搜索程序家族,其中包括许多有特定用途的程序。
1.2 利用生物信息学方法分析基因芯片数据1.2.1 差异表达分析(又称基因表达差异分析)识别两个条件下表达差异显著的基因,即一个基因在两个条件中的表达水平,在排除各种偏差后,其差异具有统计学意义1.2.2 聚类分析若组内基因具有相似的表达模式,则它们可能具有相似的功能,例如受共同的转录因子调控的基因,或者产物构成同一个蛋白复合体的基因,或者参与相同调控路径的基因。
在具体应用中可按照相似的表达谱对基因进行聚类,从而预测组内未知基因的功能。
目前已经有很多种聚类的方法应用到基因芯片的研究当中,如层次聚类(Hierarchical clustering)、K 均值聚类(K-means clustering)、自组织映射(self organizing map)、PCA (principlecomponet analysis)等。
1.3 通过生物信息学方法分析蛋白质结构来预测蛋白质功能在氨基酸序列整体同源性不明显的情况下,对蛋白质的功能域进行分析将对预测基因功能提供极其有价值的信息。
目前已通过多序列比对将蛋白质的同源序列收集在一起,确定了大量蕴藏于蛋白质结构中的保守区域或序列,如结构域(domain)和模体(motif),这些共享结构域和保守模体通常与特定的生物学活性相关,反映了蛋白质分子的一些重要功能。
2 实验分析确定基因功能2.1 基因失活在基因功能分析的作用基因失活是基因功能分析的主要手段。
基因的功能是一个过程,是从基因到表型的一系列生理生化反应过程。
现在的基因功能研究与传统的遗传分析正好相反,传统的遗传分析是从表型出发最终到达基因(正向遗传学),而在基因组计划中研究基因功能则是从基因出发,最终到达表型(反向遗传学)。
因此必须寻找一系列的实验方法来鉴别与目标基因相关的表型2.1.1 基因剔除(knock-out)基因剔除(knock-out):最简单的基因失活方法,将一段无关的DNA片段用来取代目标基因。
原理:在一段无关DNA 片段的两侧连接与代换基因两侧相同的顺序,将这一构建导入目的细胞,由于同源片段之间的重组,可使无关片段取代靶基因,整合到染色体中.为了便于筛选,用于取代的外源DNA中含有报告基因. 如果该基因所控制的表型变化了,就从反面验证了目标基因的功能。
优缺点:即敲掉一个基因并不一定就能获知该基因的功能,其原因包括:一方面,许多基因在功能上是冗余的,敲掉一个在功能上冗余的基因,并不能造成容易识别的表型,因为基因家族的其他成员可以提供同样的功能;另一方面,对于某些必需基因,敲除后会造成细胞的致死性,也就无法对这些必需基因进行相应的研究了。
2.1.2 反义RNA技术原理:反义RNA由基因的负链(模板链的互补链)编码,可以与由功能基因转录而成的正义RNA形成双链结构,干扰mRNA的翻译,从而干扰基因的表达。
将基因的编码序列反向插入表达载体,转化目标生物,获得转基因个体或品系后,进一步分析表达的反义RNA在生理生化或形态发生中所起的作用,由此判别目标基因的功能。
干扰翻译的起始与延伸,可与翻译起始顺序及编码序列结合形成双链RNA,随之被细胞降解。
;与mRNA 的引导顺序结合,阻止核糖体的附着,使翻译无法启动;反义RNA与mRNA 形成双链分子后,使RNA多聚酶脱离模板,转录终止。
2.1.3 插入突变可分为T—DNA插入突变,转座子插入突变。
T—DNA插入突变原理:以农杆菌(A_grobacterium)介导的转化为基础的一种插入突变研究方法。
插入突变是将某些DNA元件插人到植物基因组中后,相应位点的基因的表达就可能受到抑制,利用插入元件作为标签,在插入位点处贴了一个标签,使得植物基因组的插入位点容易辨认。
根据插入位点的基因序列与植物表型变异等的相互关系可以从基因组中分离出相应的基因并鉴定其功能。
[5]优缺点:T-DNA插入突变具有其他插入突变方法没有的优点,在转基因植物中一般只有1~2个拷贝,可以作为突变源引发致变效应。
此外,T—DNA在其基因组中的插入位点有一定的偏向性,偏向插入到基因密度较高的区域、基因的非翻译区及启动子区,T—DNA插入对特定的基因类别没有明显的偏向性。
农杆菌介导的T-DNA也有不足之处,首先,T-NA的整合是一个复杂的过程,易产生直接的串联,反向重复和边界缺失,这将会影响到随后的分子分析。
其次,T—DNA方法具有很大的宿主范围限制,仅对那些可快速有效进行农杆菌转化的生物体非常有效。
对传统T-DNA插入突变技术的一些改进,如激活标签(activationtagging)和捕获标签(entrapmenttagging)技术在一定程度上解决了上述问题。
转座子插入突变原理:转座子插入宿主DNA的随机性导致产生大量的突变体,这些突变体可用于分析某特殊功能或过程的丢失、减弱的原因。
许多转座系统已被应用于基因组水平的功能研究,尤其被着重用于研究与生物生存十分重要的基因的鉴定和结构分析。
转座子(transposon)是染色体上一段可移动的DNA片段,它可从染色体的一个位置“跳到”另一个位置。
当转座子插入到某个功能基因时,会引起该基因的失活并诱导产生突变型,而当转座子再次转座或切离这一位点时,失活基因的功能又可得到恢复。
[6]2.1.4 RNA干扰原理:RNAi干扰是通过双链RNA的介导,特异性地降解相应序列的mRNA,从而阻断相应基因表达的转录后水平的基因沉默机制。
优缺点:RNAi最根本的特点是特异性。
RNAi具有特殊的穿越能力,如将双链RNA注射在线虫性腺里,它也会干扰到体细胞里的基因表达,而且干扰作用会传给后代;对一些低水平表达的基因,RNAi现象并不明显RNAi能同时作用于几个有相同或相似序列的基因。
2.2 基因的超表达用于功能检测原理:超量表达是指将目的基因全长序列与高活性的组成型或组织特异型启动子融合,通过转化获得该基因产物大量积累的植株,从而扩大该基因在生理生化过程中的效应,这部分扩大的效应带来的与正常植株在各种表型上的差异有助于帮助理解基因功能。
重要逆境调控基因微小的表达变化就可以引起下游基因的积累效应,有可能使生物体表型发生可评估的变化,使其功能凸现。
优缺点:超量表达的技术规范已经相当成熟,与RNAi相比,目的基因超量表达后的表达量更易检测,但其与反义抑制和共抑制一样,均会导致转基因植株的致死效应或强烈的多重效应。
2.3 杂交原理的方法检测mRNA表达水平2.3.1 DNA微阵列原理:基因芯片(gene chip)又称DNA微阵列(DNA microarray)、DNA芯片(DNA chip), 是将大量已知序列的核酸片段(包括寡核苷酸、cDNA、基因组DNA、microRNA等) 集成在同一基片上,组成密集分子排列,通过与标记样品进行杂交,检测、获取细胞或组织的基因信息。
其中基因表达谱(expression prifile)分析是目前基因芯片应用最多的一个方面,主要采用cDNA芯片,基因表达谱芯片便于对不同状态(如生理和病理条件)下的基因表达谱进行比较,揭示转录组(transcriptome)差异表达的规律,对探索发病机制、评价治疗效果、筛选药物靶标具有重要意义[7,8]。
优缺点:缺点在于它是一个“封闭系统”, 它只能检测人们已知序列的特征(或有限的变异)。
优势在于它是一个“开放系统”, 它的发现能力和寻找新信息的能力从本质上高于芯片技术。
2.3.2 Northern印迹(Northern blot)既可分析mRNA表达又可验证cDNA新序列,是一种基于RNA-DNA杂交原理建立的一种RNA 分析技术。