基因的分子结构吴乃虎黄美娟(中国科学院遗传发育所)(北京大学生命科学学院)(2011年3月修订)一.若干概念1、5'—末端与3'—末端5'—末端:系指具有一个自由的或加帽的 5'—磷酸基团( 5'-P)之核苷酸链的末端。
3'—末端:系指具有一个自由的或就是磷酸化的3'—羟基(3'-OH)之核苷酸链的末端。
2、上游与下游这就是用来描述多核苷酸链或蛋白质多肽链分子中相反取向或相对位置关系的一对术语。
上游(upstream)与下游(downstream)在不同的场合代表不同的含义:(1) 基因的DNA或mRNA分子:上游:位于5'-末端的序列叫上游序列。
下游:位于3'-末端的序列叫下游序列。
(2) 在基因的转录反应中:上游:位于转录起点5'-方向的DNA序列叫上游。
下游:位于转录起点3'-方向的DNA序列叫下游。
(3 )蛋白质多肽链:上游:处于N-端的氨基酸序列为上游。
下游:处于C-端的氨基酸序列为下游。
(4) 在基因工程研究中:上游:基因的克隆、分离、转化、表达与调节等研究工作统称上游。
下游:转基因之后的细菌培养与发酵以及转基因动植物的培育、表达产物的分离纯化及鉴定等研究工作统称下游。
3、上游序列与下游序列在基因的DNA序列中,头一个被转录的核苷酸碱基叫做转录起点,通常就是A或G,其坐标定为+1。
、(1)上游序列位于转录起点5'一侧的DNA叫做上游序列。
其核苷酸碱基的坐标定为负。
例如-1-5,-10、、、、、、、。
(2) 下游序列位于转录起点3'-侧的DNA叫做下游序列。
其核苷酸碱基的坐标定为正。
例如+3,+5,+10、、、、、、、。
4、 5'-侧翼序列区与3'-侧翼序列区(1) 5'-侧翼序列区(5'-flanking sequence region)位于mRNA转录起点之前的一段长度有限的DNA序列区,叫做5'-侧翼序列区,或者泛称为启动子区。
在该区存在着数种控制基因转录的信号:a、确定mRNA起点的信号b、决定最大转录起始速率的信号c、对环境刺激作出反应的信号d、对发育程序作出反应的信号e、增强子序列区(2) 3'-侧翼序列区(3'-flanking sequence region)位于mRNA转录终点之后的一段长度有限的DNA序列区,叫做3'-侧翼序列区,也叫做3'-下游序列区。
在该区存在着数种控制基因转录的信号:a、终止转录作用的信号b、 mRNA3'-末端的加工信号c、大多数真核基因的3'-末端还有一段poly(A)加尾信号,即多聚腺苷酸化信号(3) 旁侧DNA(flanking DNA)这个术语与上述所说的侧翼序列区的概念不同。
指的就是与目的基因之核苷酸序列两端紧密相邻的,但就是位于基因核苷酸序列外侧的DNA序列或基因。
5.前导序列区与尾随序列区(1) 前导序列区(leader sequence region)指位于mRNA 5'-末端,起始密码子之前的一段长达数百个核苷酸的不转译的RNA区段,叫做前导序列区,也叫前导序列或5'-非转译区,简称5'-UTR。
它含有如下两种元件:a、核糖体结合位点(Ribosome-binding site ,RBS)b、转译起始信号(2)尾随序列区(trailer sequence region)指位于mRNA 3'-末端,终止密码子之后的一段非转译的核苷酸序列,叫做尾随序列区,也叫做尾随序列或3'-非转译区,简称3'-UTR,其长度约为100个核苷酸左右,它含有一个转录终止信号。
6. 核苷酸序列的同源性与相似性(1) 同源性(homology)定义:一指蛋白质的同源性—即两种或数种蛋白质多肽链之间氨基酸序列的相似性。
二指核酸的同源性—即两种或数种核酸分子之间核苷酸序列的相似性。
要点:无论何种情况,序列的同源性均就是起因于它们的编码基因之间有着共同的祖先。
显而易见,就基因的进化而言,它们之间只有"有关"或"无关"两种情况,介于二者之间的情况就是不存在的。
因此,说不同序列或不同基因之间具有"百分之几的同源性",抑或就是说具有"很高的同源性"或"很低的同源性",都就是不科学的,没有意义的。
什么叫同源基因 (homologous gene) 呢?它就是指来自不同的物种,但编码着同样的蛋白质产物,具有共同的进化祖先的基因。
同源基因的核苷酸序列往往具有很高的相似性,因此可以作为DNA杂交的探针使用。
(2) 相似性(similarity)这就是用来描述不同的核酸分子之间或不同的蛋白质多肽链之间,核苷酸序列或氨基酸序列一致性程度的一种术语。
不同序列之间的相似性或说就是相关性的程度,就是用序列的一致性(identity)或保守性(conservation)来衡量的。
很显然,不同序列之间的相似性程度就是不一样的,有高有低,可以用“百分比”或“高度相似性”、“低水平相似性”等带有度量性含意的语言来表述。
需要指出的就是,核苷酸序列具有高度的相似性的基因或者蛋白质,往往就是同源的。
(3)一致性(identity)定义:“identity”有时也译作“同一性”,系指被比对的两种甚至数种的核苷酸序列或氨基酸序列之间,在相同的位置具有同样的核苷酸单元或同样的氨基酸单元的水平。
序列一致性的程度,通常用被比对的两种核苷酸序列或氨基酸序列,在同一位置具有同样的核苷酸或同样的氨基酸数目占总数的百分比来表示。
(4)保守性(conservation)在分子生物学与基因工程学中所用的保守性(conservation)或保守的(conserved)这个词,在不同的情况下有不同的含义,基本上可分为如下三个不同的层次:a、保守基因(conserved gene)就是一类在不同的物种中均存在的基因。
例如,在人类基因组中已发现的基因中,约有25%在植物基因组中也存在。
再如人、猪等的胰岛素基因,亦就是属于保守基因。
b、保守序列(conserved sequence)也译作一致序列或共有序列。
就是指在大量相关的,但并非完全相同的核苷酸序列中,共同存在的一段核苷酸类型与数目都极少变化的特定的序列区段。
在保守序列中,每一个位置的核苷酸都就是一系列可比较的相关序列,在相同的位置上最经常用的代表性的核苷酸。
例如,大肠杆菌基因启动子中的-35元件(5'-TTGACA-3')与-10元件(5'-TATAAT-3'),便就是两种典型的保守序列。
在众多的大肠杆菌基因启动子中,这两个元件的核苷酸类型与长度均极少变化。
c、保守区(conserved region)或结构域(domain)指在不同的蛋白质多肽链分子中,共同存在的一段氨基酸类型及数目均极少变化的特定的区域或区段。
例如,转录因子的DNA结合域之一的亮氨酸结构域便属于一种有代表性的蛋白质保守区。
二基因的主要组成部分真核基因与原核基因真核基因:真核细胞核基因组DNA编码的基因,以及感染真核细胞的DNA病毒与反转录病毒基因组编码基因,统称真核基因。
原核基因:由原核生物染色体基因组DNA以及高等生物线粒体基因组DNA与叶绿体基因组DNA编码的基因,都属于原核基因。
基因的共有组成部分:无论真核基因还就是原核基因,其结构都有如下4个部分:a、编码区(coding region)b、非编码区(noncoding region)c、启动区 (promoter region )d、终止区 (terminator region)1、编码区(1)编码区的含义:在原核蛋白质编码基因的mRNA分子中,以及在真核蛋白质编码基因的成熟mRNA分子中,从起始密码子(通常就是AUG)开始至终止密码子(UAA,UAG,UGA)为止的一段编码氨基酸的核苷酸序列,叫做编码区,或称编码序列区。
(2)不连续的编码序列区:真核基因结构的主要特征就是,许多真核蛋白质编码基因以及某些tRNA基因,它们的转录序列区都就是被一种叫做间隔子(intron)的非编码序列所间断,形成不连续的编码序列区。
(3)编码区段与读码框:编码区与开放读码框(open reading fram)在概念上就是有差别的。
开放读码框(ORF)也有的叫可读框,就是指由一系列氨基酸密码子组成的不具有终止密码子的DNA序列区,或者说就是可以转译成蛋白质多肽链的一段DNA序列区。
它与编码区的差别在于它不包括终止密码子,而编码区则包括终止密码子。
2、非编码区(1)非编码区的定义:基因中转录而不转译的核苷酸序列区。
尽管这些非编码序列区不转译成蛋白质多肽链产物,但对基因的表达与调控却就是必不可少的。
(2)非编码区的类型a、 5'-末端非转译区(5'-UTR)b、 3'-末端非转译区(3'-UTR)c、间隔子序列区(真核蛋白质编码基因中存在)3、启动区(启动子)(1)启动区的定义:相应于原核的启动区(promoter)在真核基因中则往往译作启动子,特指位于基因5'-末端上游紧邻转录起点外侧,一段具有特殊功能的非编码的核苷酸序列区。
在有关的文献中,启动区的定义似乎不那么严格,有时人们也把5'-侧翼序列区泛称为启动区。
从广义的角度讲,控制基因转录的各种信号的任何组合都可以称之为启动区。
例如有人也把增强子(enhancer)归为真核基因启动子的一个组成元件(element).(2) 启动区的结构原核基因启动区的结构:a、-10元件,亦叫-10box或Pribnow box,也可称之为TATAAT box;b、-35元件,也叫做-35box,或TTGACAbox。
真核基因启动子的结构:a、-25元件,亦叫TATA盒;b、上游激活元件:GCbox与CAAT box。
图1、原核基因启动区主要元件图2、真核基因启动子主要元件(3) 启动区的类型:根据识别启动子的RNA聚合酶的类别,可将真核启动子分成三种不同的类型:a、I型启动子b、Ⅱ型启动子c、Ⅲ型启动子4、终止区(1)终止区的定义:(terminator region)也叫做终止序列,一般特指位于原核生物操纵子3'-末端,也就是转录单位3'-末端转录终止位点之后的一段DNA序列,其功能就是为RNA聚合酶提供转录终止信号。
终止子(terminator),也叫做转录终止子或终止序列,就是指位于真核基因3'-末端下游外侧与转录终止位点相连的一段非编码的核苷酸序列区。