第二讲真核生物基因组真核生物的基因组比较庞大,并且不同生物种间差异很大,例如人的单倍体基因组由3.16×109 bp组成。
在人细胞的整个基因组中实际上只有很少一部份(约占2%~3%)的DNA序列用以编码蛋白质。
第一节真核生物基因组特点真核生物体细胞内的基因组分细胞核基因组与细胞质基因组,细胞核基因组是双份的(二倍体,diploid),即有两份同源的基因组;细胞质基因组可有许多拷贝。
真核细胞基因转录产物为单顺反子,一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链。
细胞核基因组存在重复序列,重复次数可达百万次以上,大多为非编码序列;因此,基因组中不编码的区域多于编码区域。
大部分基因含有内含子,因此,基因是不连续的。
真核生物基因组远远大于原核生物的基因组,具有许多复制起点,但每个复制子的长度较小。
一、细胞核基因组与细胞质基因组(一)细胞核基因组细胞核基因组的DNA与蛋白质结合形成染色体(chromosome)。
除配子细胞外,体细胞有两个同源染色体,因此基因组有两份同源的基因组。
染色体储存于细胞核内,是基因组遗传信息的载体。
(二)线粒体基因组线粒体基因组DNA(mitochondrial DNA,mtDNA)为双链环状超螺旋分子,类似于质粒DNA,分子量小,大多在1~200×106之间,如人类mtDNA仅由16569bp组成。
mtDNA的复制属于半保留复制,可以是θ型复制,或滚环复制,或D环复制,由线粒体DNA聚合酶催化完成。
线粒体基因组主要编码与生物氧化有关的一些蛋白质和酶,如:呼吸链中的细胞色素氧化酶有七个亚基,其中三个亚基由mtDNA编码,其余四个亚基由细胞核DNA编码;细胞色素还原酶有七个亚基,基中的一个亚基由mtDNA编码;ATP酶含有十个亚基,其中四个亚基由mtDNA编码。
线粒体基因组可能还包括一些抗药性基因。
此外,线粒体基因组有自己的rRNA,tRNA,核糖体等系统,因此线粒体本身的一些蛋白质基因也可以在线粒体内独立地进行表达。
近几年的研究发现,哺乳动物mtDNA的遗传密码与通用的遗传密码有以下区别:①UGA不是终止密码,而是编码色氨酸的密码;②多肽内部的甲硫氨酸由AUG和AUA 两个密码子编码,而起始甲硫氨酸由AUG、AUA、AUU和AUC四个密码子编码;③AGA、AGG不是精氨酸的密码子,而是终止密码子,因此,在线粒体密码翻译系统中有4个终止密码子(UAA、UAG、AGA、AGG)。
二、单顺反子结构真核细胞结构基因为单顺反子(monocistron),一个结构基因经过转录生成一个单顺反子mRNA分子,翻译成一条多肽链,真核生物基本上没有操纵子结构。
三、断裂基因真核细胞基因组的大部分序列属于非编码区,不编码具有生物活性的蛋白质或多肽。
编码区通常为结构基因,结构基因不仅在两侧有非编码区,而且在基因内部也有许多不编码蛋白质的间隔序列(intervening sequences),因此,真核细胞的基因大多由不连续的几个编码序列所组成,称之为断裂基因(split gene)。
(一)内含子与外显子内含子(intron)是结构基因中的非编码序列,往往与编码序列呈间隔排列。
当基因转录后,在mRNA的成熟过程中被剪切(splicing)。
外显子(exon)是结构基因中的编码序列,当基因转录后,mRNA在成熟过程中切去内含子,外显子才被拼接成完整的序列,成为成熟的mRNA作为指导蛋白质合成的模板。
(二)间隔区DNA真核生物基因之间存在编码空白区或转录的空白区,称之为间隔区DNA(spacer DNA),这些序列往往在单拷贝的结构基因之侧翼,并使结构基因彼此分开,间隔区DNA也可以存在于rDNA区。
间隔区DNA大小与基因组的大小有关,一般来说,基因组愈大,间隔区DNA所占的比例也愈高。
四、重复序列(一)高度重复序列真核生物基因组中普遍存在着重复序列,其中重复频率高,可达百万(106)以上的重复序列,称之为高度重复序列。
在人类基因组中约占20%。
由于高度重复序列中碱基组成的复杂度很低,因此其复性速率很快。
高度重复序列又按其结构特点分为三种:1.反向(倒位)重复序列这种重复序列复性速度极快,即使在极稀的DNA浓度下,也能很快复性,因此又称零时复性部分,人基因组中约占5%。
倒位重复序列由两个相同顺序的互补拷贝在同一DNA链上反向排列而成。
变性后再复性时,同一条链内的互补的拷贝可以形成链内碱基配对而形成发夹式或“+”字形结构。
倒位重复(即两个互补拷贝)之间可有若干个核苷酸的间隔,也可以没有间隔。
没有间隔的又称之为回文(palindrome)结构,回文结构约占所有倒位重复的三分之一。
2.卫星DNA(satellite DNA)重复序列的重复单位一般由2~10bp组成,且成串排列。
由于这类序列的碱基组成不同于其他部份,可用等密度梯度离心法将其与主体DNA分开,因而称为卫星DNA或随体DNA。
在人类基因组中卫星DNA约占5~6%。
3. 高度重复顺序的功能主要有:①参与复制水平的调节。
反向序列常存在于DNA 复制起点区的附近;另外,许多反向重复序列是一些蛋白质(包括酶)和DNA的结合位点。
②参与基因表达的调控。
③参与转位作用。
几乎所有转位因子的末端都包含反向重复序列,长度由几个bp到1400bp。
④与进化有关。
不同种属的高度重复序列的核苷酸序列不同,具有种属特异性,但相近种属又有相似性。
⑤与个体特征有关。
同一种属中不同个体的高度重复序列的重复次数不一样,这可以作为每个个体的特征,即DNA 指纹。
⑥与染色体减数分裂时染色体配对有关。
(二)中度重复序列中度重复序列是指在真核基因组中重复数十至数万次(<105)的重复序列。
其复性速度快于单拷贝顺序,但慢于高度重复序列。
少数在基因组中成串排列在一个区域,大多数与单拷贝基因间隔排列。
依据重复序列的长度,中度重复序列可分为两种类型。
1.短分散片段(short interspersed repeated segments,SINES)重复序列的平均长度为300bp(一般<500bp),与平均长度为1000bp左右的单拷贝序列间隔排列,拷贝数可达10万左右。
如Alu家族、Hinf家族等属于这种类型的中度重复序列。
Alu家族是哺乳动物基因组中含量最丰富的一种中度重复顺序家族,约占人类基因组的3%~6%。
Alu家族每个成员的长度约300bp,每个单位长度中有一个限制性内切酶Alu的切点(AG↓CT),Alu可将其切成两段,130bp和170bp,因而定名为Alu 序列(或Alu家族)。
Alu序列分散在基因组中,在间隔区DNA,内含子中都发现有Alu序列。
Alu序列具有种特异性,以人的Alu序列制备的探针只能用于检测人的基因组中的Alu序列,由于在大多数的含有人的DNA的克隆中都含有Alu序列,因此,可用以人的Alu序列制备的探针与克隆杂交来进行筛选。
2.长分散片段(long interspersed repeated segments,LINES)重复序列的长度大于1000bp,平均长度为3500~5000bp,如KpnⅠ家族等。
中度重复序列在基因组中所占比例在不同种属之间差异很大,在人类基因组中约为12%。
中度重复序列大多不编码蛋白质。
其功能可能类似于高度重复序列。
有些中度重复序列则是编码蛋白质或rRNA的结构基因,如HLA基因、rRNA基因、tRNA基因、组蛋白基因、免疫球蛋白基因等。
中度重复序列可存在于结构基因之间、基因簇之中,甚至存在于内含子内部等。
中度重复序列一般具有种属特异性,因此在适当的情况下,可以应用它们作为探针以区分不同种属哺乳动物细胞来源的DNA。
KpnⅠ家族 是中度重复顺序中仅次于Alu家族的第二大家族,用限制性核酸内切酶KpnⅠ消化人类及其它灵长类动物的DNA,在电泳图谱上可以看到4个不同长度的片段,分别为1.2、1.5、1.8和1.9kb,在人类基因组中,KpnⅠ家族的拷贝数约为3000~4800个,约占基因组的1%。
(2)组蛋白基因在各种生物体内重复的次数不一样,组蛋白基因没有一定的排列方式,组蛋白基因不含内含子,组蛋白基因序列都很相似,从而编码的组蛋白在结构上和功能上也极为相似,具有高的保守性。
(三)低度重复序列(单拷贝序列)低度重复序列在单倍体基因组中只出现一次或数次,因而复性速度很慢。
人基因组中,大约有60%~65%的序列属于这一类。
低度重复序列中储存了巨大的遗传信息,编码各种不同功能的蛋白质。
目前尚不清楚单拷贝基因的确切数字,在低度重复序列中只有一小部份用来编码各种蛋白质,其他部份的功能尚不清楚。
五、多基因家族与假基因(一)多基因家族多基因家族(multigene family)是指由某一祖先基因经过重复和变异所产生的一组基因。
多基因家族可分为两类:①基因家族成簇地分布在某一条染色体上,其可同时发挥作用,合成某些蛋白质(如:组蛋白基因家族就成簇地集中在第7 q 32 6);②一个基因家族的不同成员成簇地分布在不同的染色体上,这些不同成员编码一组功能上紧密相关的蛋白质(如珠蛋白基因家族)。
(二)假基因在多基因家族中,某些成员并不产生有功能的基因产物,这些基因称为假基因(pseudo gene)。
假基因与有功能的基因是同源的,原来可能也是有功能的基因,但由于缺失,倒位或点突变等,使这一基因失去活性,成为无功能的基因。
人们推测假基因的来源之一,可能是基因经过转录后生成的hnRNA通过剪接失去内含子形成mRNA,mRNA经逆转录产生cDNA,再整合到染色体DNA 中去,便有可能成为假基因,因此该假基因就没有内含子,在这个过程中,可能同时会发生缺失,倒位或点突变等变化,从而使假基因失去表达活性。
六、多态性基因组中某个基因在同种生物的不同个体中,同时和经常存在的两种或两种以上的变异型或基因型的现象,称为基因多态性(gene polymorphism)。
真核生物基因组中基因多态性常常出现在限制性核酸内切酶的酶切位点序列中,因此,用某个限制性核酸内切酶来酶解基因组的某段序列时,在同种的不同个体之间该段序列可能被酶解成长短不等的几个DNA片段,即这段序列在该种生物的群体中形成多态性,这种多态性称为限制性核酸内切酶片段长度多态性(restriction fragment length polymorphism,RFLP)。
RFLP分为两种类型:一类是由于限制性内切酶位点上发生了单个碱基突变而使这一限制性位点发生丢失或获得而产生的多态性,故称之为点多态性(point polymorphism)。
这类多态性实际上是双态的,即有(+)或无(-)。
另一类是由于DNA 分子内部发生较大的顺序变化所致。