第2章基因、基因组和基因组学基因(gene):携带有遗传信息的DNA或RNA序列,也称为遗传因子。
基因是合成有功能的蛋白质或RNA所必需的全部DNA,包括编码蛋白质或RNA的核酸序列,也包括为保证转录所必需的调控序列。
基因的功能:传递遗传信息,控制个体性状表现。
结构基因(structural genes):可被转录形成mRNA,并转译成多肽链,构成各种结构蛋白质,催化各种生化反应的酶和激素等。
调节基因(regulatory genes) :某些可调节控制结构基因表达的基因。
其突变可影响一个或多个结构基因的功能,或导致一个或多个蛋白质(或酶)量的改变。
eg. miRNA, siRNA, piRNA核糖体RNA 基因(ribosomal RNA genes) 与转运RNA 基因(transfer RNA genes):只转录产生相应的RNA而不翻译成多肽链。
真核生物的RNA聚合酶( 3种):RNA 聚Array合酶I, II, III.开放阅读框架(open reading frame,ORF):在DNA链上,由蛋白质合成的起始密码开始,到终止密码为止的一个连续编码序列。
断裂基(split gene):真核生物结构基因,由若干个编码区和非编码区互相间隔开但又连续镶嵌而成,去除非编码区再连接后,可翻译出由连续氨基酸组成的完整蛋白质。
基因组(genome):一个细胞内的全部遗传信息,包括染色体基因组和染色体外基因组。
基因组中的DNA包括编码序列和非编码序列。
部分病毒基因组--RNA。
C值(C-value):一种生物体单倍体基因组DNA的总量,用以衡量基因组的大小。
通常,进化程度越高的生物其基因组越大,但从总体上说,生物基因组的大小同生物在进化上所处地位的高低无关。
存在C-value paradox (C值悖理)。
生物复杂性越高,其基因的密度越低。
病毒基因组的大小: 与细菌或真核细胞相比,病毒的基因组很小。
不同的病毒之间基因组大小相差很大。
乙肝病毒DNA:3kb,编码4种蛋白质;痘病毒的基因组:300kb,编码几百种蛋白质。
病毒基因组的大小通常与其对宿主的依赖程度有关,基因组越大,依赖性越小。
RNA 病毒基因组编码序列具有节段性:有些病毒的基因组RNA由不连续的几条核酸链组成(如流感病毒,轮状病毒等)。
分段基因组的病毒一般感染效率较低;分段基因组容易发生重组,故病毒容易变异。
目前未发现DNA病毒有此状况。
病毒基因存在基因重叠:基因重叠:同一段DNA片段能够参与编码两种甚至两种以上的蛋白质分子。
这种现象在其它的生物细胞中仅见于线粒体和质粒DNA。
此结构意义在于使较小的基因组能够携带较多的遗传信息。
基因重叠的方式:1)一个基因完全在另一个基因里面。
2)几个基因部分重叠。
3)两个基因之间只有一个碱基重叠。
重叠基因的DNA序列可能大部分相同,但由于翻译时的读码框架不同、或起始部位不同而产生不同的蛋白质。
有些真核病毒的部分序列,对某一个基因来说是内含子,而对另一个基因而言却是外显子。
病毒基因组的大部分序列具有编码功能:病毒基因组的大部分是用来编码蛋白质的,只有非常小的一部份没有编码翻译功能。
ΦX174基因组中不编码的序列只占217/5375。
乳头瘤病毒基因组约8.0Kb,其中不编码的部分约为1.0kb。
少数真核生物病毒的基因组也存在内含子结构。
病毒基因组的转录单元是多顺反子:多顺反子mRNA (polycistronie mRNA) :病毒基因组DNA序列中功能上相关的蛋白质的基因或rRNA的基因往往丛集在基因组的一个或几个特定的部位,形成一个功能单位或转录单元。
它们可被一起转录成含有多个mRNA 的分子。
病毒基因组都是单倍体:除了逆转录病毒以外,一切病毒基因组都是单倍体,每个基因在病毒颗粒中只出现一次。
逆转录病毒带有逆转录酶,能使RNA反向转录生成DNA,因此其基因组可拥有两个拷贝。
噬菌体基因具有连续性:噬菌体的基因是连续的,而真核细胞病毒的基因是不连续的,具有内含子。
原核生物基因组通常比较简单,其基因组大小在106bp~107bp之间,所包含的基因数目几百个到数千个之间。
原核生物基因组通常由一条环状的双链DNA分子组成,在细胞中与蛋白质结合成染色体的形式,在细胞内形成一个致密的区域,称为类核(nucleoid).大肠杆菌染色体基因组的结构和功能:大肠杆菌基因组序列中的基因密度非常高,编码区所占的比例较大。
大肠杆菌中总共有4288个基因,平均编码长度为950bp,基因之间的间隔区长度为118bp,而且这些结构基因没有内含子。
大肠杆菌DNA分子中的重复序列很少,但在大肠杆菌基因组中不同部位可以有称为转座子的50kb的重复片段。
转座因子:原核生物转座因子主要有二类:插入序列(insertion sequence,IS) :IS:2000bp以内,两端都有正向重复序列(direct repeats,DR)和反向重复序列(inverted repeats,IR),中间1kb左右的编码序列,仅编码和转座有关的转座酶。
只有当IS 转座到某一基因中使该基因失活或插入位点旁边的染色体发生畸变等效应时才会被发现。
复合型转座子( composite transposon, Tn) :Tn :2000~20000bp之间,两端由一对IS 元件组成,带有与转座作用有关的基因以及其他基因。
根据转座的的机制和结果,可将转座分为:复制型转座,保守型转座大肠杆菌染色体外基因组的结构和功能:质粒(plasmid):一类染色体外具有自主复制能力的环状双链DNA分子,属染色体外基因组。
大肠杆菌质粒是双链环状结构的DNA 分子。
可以有共价闭合环状DNA(covalently closed circular DNA,cccDNA)、缺口的环状DNA、线性DNA 三种结构状态。
质粒对宿主细胞的生存一般不是必需的,但质粒带有某些特殊的不同于宿主细胞的遗传信息,其存在赋予宿主细胞一些遗传性状。
质粒能自主复制,是能独立复制的复制子(autonomous replicon)。
严紧控制(stringent control)型质粒:其复制常与宿主的繁殖偶联,拷贝数较少,每个细胞中只有1个到十几个拷贝。
松弛控制(relaxed control)型质粒:其复制与宿主不偶联,每个细胞中有几十到几百个拷贝。
质粒的稳定性与不相容性: 质粒的不相容性(incompatibility):两种不同质粒因利用同一复制和维持机制,在复制和随后向子代细胞分配的过程中会发生竞争,从而不能在同一宿主细胞内稳定存在,其中一种质粒将被丢失。
携带不同复制和维持机制的质粒属于不同的不相容群,它们可以共存于同一细胞中。
影响质粒稳定性的因素:1.主细胞分裂时质粒能否均衡地分配到子代细胞。
2.质粒分子自身结构的稳定性。
真核生物的遗传物质绝大部分存在于细胞核染色体,少部分存在于线粒体或叶绿体中----细胞核基因组和细胞器基因组。
真核生物染色体基因组特点:人类基因组中仅含有25000~30000个基因,远低于预期。
在人类基因组中只有很少一部份(约2-3%)DNA序列用以编码蛋白质和结构RNA。
人类基因组中存在大量基因间隔区序列,主要由重复DNA构成。
在基因内部含大量内含子。
单拷贝序列:占40%-80%,结构基因基本上属于单拷贝序列。
中度重复序列:重复次数10~105,占10-40%。
如rRNA、tRNA、组蛋白以及免疫球蛋白的基因等,另有部分可能与基因的调控有关。
高度重复序列:拷贝数大于106,占10-60%。
如反向重复序列(inverted repeats) 和卫星DNA (satellite DNA)。
反向重复序列常见于基因的调控区,可能与复制、转录的调控有关。
重复序列的多态性:DNA多态性:DNA 序列发生变异从而导致的个体间核苷酸序列的差异。
主要包括单核苷酸多态性(single nucleotide polymorphism,SNP)和串联重复序列多态性(tandem repeats polymorphism)。
SNP--由基因组DNA上的单个碱基的变异引起的DNA序列多态性。
据估计,人类基因组中每1kp就存在一个SNP 位点,共有约300万个之多,是人群中个体差异最具代表性的DNA多态性。
相当一部分SNP还直接或间接与个体的表型差异、对疾病的易感性或抵抗能力、对药物的反应性等相关。
大多数SNP位点十分稳定,人类85%的SNP 是共有的。
高度重复序列中的无间隔反向重复序列很容易形成限制性内切酶识别位点,也很容易因为突变产生或是失去一个酶切位点,可以造成限制性片段长度多态性(restriction fragment length polymorphism,RFLP).真核基因组存在多基因家族与假基因:多基因家族(multi gene family):由某一祖先基因经过重复和变异所产生的一组基因。
假基因(pseudo gene):与某些有功能的基因结构相似,但不能表达有功能的基因产物的某些基因。
多基因家族大致可分为两类:一个基因家族的不同成员成簇地分布在不同染色体上,但核酸序列高度同源,编码一组功能上紧密相关的蛋白质,如珠蛋白基因家族。
基因家族成簇地分布在某一条染色体上,它们可同时发挥作用,合成某些蛋白质,如组蛋白基因家族就成簇地集中在第7号染色体长臂3区2带到3区6带区域内,这种分布方式与DNA复制时需要大量的组蛋白有关。
假基因的产生有两种方式:由突变引起的基因序列变化而失去功能,这样产生的假基因带有内含子,称为常规假基因(conventional pseudogene)。
mRNA经过反转录为cDNA,再插入基因组,由于插入位点不合适或序列发生变化而导致失去功能。
这种类型的假基因不含内含子,称为已加工的假基因(processed pseudogenes)。
真核生物细胞器基因组:真核生物有两类细胞器能携带遗传物质:线粒体和叶绿体。
这些遗传物质独立于细胞核基因组外,能够自行复制和表达,又称为染色体外基因组。
线粒体基因组编码其自身蛋白质合成体系的某些成员,如rRNA和tRNA等,以及呼吸链中的某些成员,如ATP酶、NADH还原酶、细胞色素氧化酶复合体中的某些组分。
其它成员由细胞核基因组编码。
高等动物线粒体基因组具有独特的特点:①母系遗传。
子代线粒体基因组来自母亲,父系的线粒体基因组在精卵结合时一般不能进入卵细胞。
②线粒体DNA损伤后不易修复,突变率较高,可能与衰老及某些疾病有关。
③遗传密码与通用遗传密码存在差别,如UGA(终止密码子)编码Trp,AGA/AGG(Arg)为终止密码子等。
基因组学(Genomics):对生命有机体全基因组进行序列分析和功能研究的学科。