第一章 基因和基因组
断裂基因在进化中的意义: (1)通过不同的剪切方式可产生多种不同的mRNA,编码多种 不同功能的蛋白。因此有利于储存信息,增加信息量。 (2)内含子保守性差,变异性强,有利于形成新的基因。
(3)有些内含子可能在基因表达过程中有一定的调节控制作用。
II、重叠基因 (Overlapping gene)
按蛋白质的功能可分为 结构基因:基因产物是酶和其他不直接影响基因表达的蛋白质。 调节基因:通过最终产物蛋白质或RNA来控制其他基因表达的基因 按表达方式 组成型表达基因:在任何组织部位和任何发育时期都表达的基因 选择性表达基因:只在特定的组织部位或特定发育阶段表达的基因 根据拷贝数 单拷贝基因:在基因组中只有一个拷贝 多拷贝基因:在基因组中有多个拷贝
哺乳动物血红蛋白类α -珠蛋白基因家族、类β -珠蛋白基因家 族都是由功能基因和假基因形成的一个基因簇
三:基因的功能
1. 遗传信息的储存 2. 基因的复制 3. 基因的表达
3. 基因与疾病
1.多基因病(polygenic disorders):遗传疾病的发生不是由一对等位基 因决定,而是由两对或两对以上的等位基因所决定, 因此这类疾病称 为多基因病,同时疾病的形成还受环境因子的影响,也称为多因子疾病 (multi-factorial disorders)。 2.单基因遗传病(monogenic disease; Single Gene Disorder)是指由于 单个基因的突变而引起的遗传病,符合孟德尔遗传方式,所以称为孟 德尔式遗传病。 在线人类孟德尔遗传数据库(OMIM)最新统计:截止2011年2月21日, 人类单基因疾病、性状和基因座已达 20356 种,其中常染色体遗传 19094种,X连锁遗传1138种,Y连锁遗传59种,线粒体遗传65种。 3.线粒体遗传病:由线粒体DNA突变导致的疾病。
三、基因结构的多样性
I. 断裂基因
一个基因由几个不相邻的编码序列组成,编码序列之间被 非编码的序列隔开,这样的基因被称为断裂基因。 外显子(Exon): 断裂基因中的编码部分,将包含在成熟 的RNA中。内含子(Intron):断裂基因中非编码部分,在 初始转录物加工成成熟RNA时被除去。 5‘UTR E I E I E 3‘UTR
在一个基因的编码顺序内存在着另一种基因的遗传信息, 这样的基因被叫做重叠基因。 1. 重叠基因的发现: 重叠基因是1977年由英国剑桥大学Sanger在研究ΦX174时发 现的。ΦX174是一种单链DNA病毒,宿主为大肠杆菌,因此, 又是噬菌体。它感染大肠杆菌后共合成11个蛋白质分子,总 分子量为25万左右,相当于6078个核苷酸所容纳的信息量。 而该病毒DNA本身只有5375个核苷酸,最多能编码总分子量 为20万的蛋白质分子,Sanger在分析了ΦX174 DNA的全序列 之后,才了解到这11个基因原来是有重叠的。
2. 启动子 启动子(promoter)包括下列几种不同顺序,能促进转录过程:
(1)TATA框(TATA box):其一致顺序为TATAATAAT。它 在基因转录起始点上游约-25bp处,基本上由A-T碱基对组成, 是决定基因转录起始的选择,为RNA聚合酶的结合处之一, RNA聚合酶与TATA框牢固结合之后才能开始转录。
6. DNA的双螺旋结构以及复制机制的提出
1953年, 美国的Jim Watson and 英国Francis Crick 提出DNA双螺旋结构 和复制模型,这一模型后来被证明是正确的,为了解遗传信息传递机制奠 定了基础。
7. 基因精细结构的分析
1955年,Benzer用T4噬菌体做遗传分析,发现了基因的精细结构,发现基 因具有可分割性,并提出顺反子的概念。
II、重复多拷贝基因 (repetitive gene)
根据对多种生物DNA所作的详细分析表明,在真核 基因组存在有四种不同类型的DNA序列: (1) 不重复的唯一序列(只有一个拷贝); (2) 低度重复序列(<10个拷贝); (3) 中度重复序列(10到上万个拷贝); (4) 高度重复序列(几万到几百万个拷贝)。 重复基因,即在基因组中有多个拷贝的基因。在真核生物基因 组中发现这种现象,真核生物中的重复基因可以达到30%, 重复 基因主要是为了满足生物体对某种基因产物的大量需要。 例如组蛋白基因、rRNA基因和tRNA基因在基因组中一般都 是多拷贝的重复基因,他们往往成簇存在,形成基因簇(gene cluster)。
(5)原核生物只有一种RNA聚合酶, 启动子比较短(不 超过几百个bp)。真核生物有三种RNA聚合酶,启动子比 较长(上千个bp)。
II. 真核生物基因的结构
真核生物基因都由控制序列和转录序列组成,控制序列包括 启动子和增强子,转录序列包括外显子和内含子。
终止子
1.外显子和内含子 大多数真核生物的基因为不连续基因(interruptesd或 discontinuous gene)。所谓不连续基因就是基因的编码顺序在 DNA分子上是不连续的,被非编码顺序所隔开。编码的顺序称 为外显子(exon),是一个基因表达为多肽链的部分;非编码 顺序所称为内含子(intron),又称插入顺序(intervening sequence,IVS)。内含子只转录,在前mRNA(pre-mNRA)时被 剪切掉。如果一个基因有n个内含子,一般总是把基因的外显子 分隔成n+1部分。内含子的核苷酸数量可比外显子多许多倍。 人外显子平均1340bp,人内含子平均长度3.3kb,人含内含子最 多的基因有233个内含子。
至目前为止,关于基因的概念一般是这样定义的:
遗传学定义:基因是遗传的物理和功能单位。
分子生物学定义:基因是产生蛋白质或RNA所必 须的全部DNA序列。
其他定义:基因是DNA序列中能被转录为一个初始 RNA分子的区域。
第二节 基因分类
一、基因的种类
按基因的最终产物可分为 蛋白质基因:通过转录和翻译最终产物是蛋白质的基因。 大多数的基因属于此类。产生的蛋白质参与细胞构成、酶 催化、基因表达调节等。 RNA基因:通过转录最终产物是RNNA, miRNA等。这些RNA也被叫做非 编码RNA(non-coding RNA, ncRNA)。这些RNA主要参 与基因调控、染色体复制、RNA修饰加工、mRNA翻译及 稳定性、蛋白质降解等过程,近年来受到重视。
8. 基因信息的传递过程 20世纪60 年代,提出了中心法则,确定了三联体密码,提出了 操纵子学说。这些成就使得人们对遗传信息传递和基因表达调 控机制有了初步理解。
9. 基因结构的多样性以及基因的人为操纵 20世纪70年代和80年代以后,由于许多重大技术的突破,对 基因的认识又有了新的发展,发现了基因结构的多样性,例如 断裂基因、重叠基因、重复基因、转座基因等。另外,基因工 程技术的诞生,使人们可以合成基因、改造基因、测定基因、 利用基因。基因既是一种客观存在,又可以被人们主观应用, 利用基因定向改造生物变为现实。
3. 基因的三位一体概念
1910年,Morgan 的果蝇杂交实验,基因的染色体学说,基因是遗传的 基本单位,在染色体上排列。
4. 基因的化学本质是DNA
1944年,Avery 的肺炎双球菌转化实验(细菌表面光滑和粗糙的遗 传),证明了细菌的遗传物质是DNA而不是蛋白质。 Hershey-Chase experiment:噬菌体用32P标记DNA, 35S标记蛋白质, 然后侵染细菌,搅拌后离心沉淀细菌,发现32P标记与细菌共沉淀,而 35S标记与细菌分开。表明噬菌体的DNA进入细菌,DNA是遗传物质。
5. 对基因功能的了解,基因型如何决定表现型
1941年,斯坦福大学George Beadle的真菌突变体的营养缺陷型实验。 诱发突变,检测维生素缺陷型,用遗传学方法证明突变株是在基因位点
发生了突变,用生物化学方法证明了突变株某个代谢步骤发生了故障,
从而提出:基因是通过它的产物,即具有催化功能的酶,来决定生物的 性状。由此,“一个基因,一个酶”的理论诞生。
基因多为不连续的,被插入序列(IS)所分隔,这种现象称为 断裂基因(split gene) 断裂基因由内含子(intron)(非编码序列)和外显子 (exon)(编码序列)交替组成。 内含子和外显子在编码不同蛋白的时可转换角色 除少数蛋白(a,ß -interferon和组蛋白)外几乎所有基因都 有内含子。
rRNA基因簇的转录产生了一系列小基质块,每个小基质 块对应一个转录单位,它们和后面的基质块通过非转录区 隔开。
III、假基因( pseudo-gene )
假基因(pseudo-gene)最初由Jacq等人提出。他们在非洲爪蟾 DNA中克隆了一个5SrRNA相关基因,比较其功能基因后发现, 这个基因的5’端有16bp的缺失以及另外14bp的错配,就将这个 截短的5SrRNA的同源物描述为假基因。随着大量不同家族的假 基因的发现,假基因就被明确限定为具有与功能基因相似的序列, 但不翻译为功能蛋白质(或RNA)的基因片段。
3.增强子 在真核基因转录起始点的上游或下游,一般都有增强子 (enhancer),它不能启动一个基因的转录,但有增强转录的作 用。此外,增强子顺序可与特异性细胞因子结合而促进转录的 进行。研究表明,增强子的作用通常有组织特异性,这是因为 不同细胞有不同的特异因子与增强子结合,从而使基因表达表 现出组织细胞特异性、发育阶段特异性、环境特异性。
二、编码基因的一般结构、功能 I. 原核生物基因的特点
(1)多以操纵子形式存在(生物学功能相近的基因聚在一 起,受一个启动子和调控元件的控制)。真核生物中一般没 有这种基因聚集现象。 (2)操纵子调控多是通过抑制子的负调控,诱导子的作用 可以解除抑制。真核生物基因调控要复杂的多,并以正调控 为主。 (3)原核生物基因多数是多顺反子结构,真核生物基因绝 大多数是单顺反子。 (4)原核生物基因转录与翻译同时进行,没有5‘帽子,没 有3’polyA, 没有内含子。而这三个结构在真核生物基因普 遍存在。