当前位置:文档之家› 4真核生物基因组结构资料

4真核生物基因组结构资料

3)基因的总长度主要由内含子决定 4)内含子的相对性:
一个基因的内含子可能是另一个基因的外显子, 所以一些DNA序列可以编码一种以上的蛋白质。
同一初始转录本产生不同mRNA的剪接方式称为 可变剪接。
肌钙蛋白基因内含子的可变剪接,产生α和β两种类型的蛋白
3.内含子存在的意义及与进化的关系
有利于储存更多的遗传信息,增加信息量。 由于可变剪接的存在…….. 增加了重组概率: 基因总长度增加…….. 可变剪接的存在…….. 有利于生物体的变异和进化: 增加了重组概率,还会造成基因突变。
2)快速复性序列:
也叫高度重复序列(Highly repetitive sequence)
• 占基因组的10-60%,长度6~ 200bp ,重复次数在 105以上。
• 大部分集中于异染色质区 ,特别是在着丝粒和 端粒区,往往没有转录功能 。
真核生物DNA 复性曲线的模 式图
复性反应分为 三P相74,图每-相16代 表不同复杂长 度的序列类型
生的假基因带有内含子,称为未加工假基因或复制假 基因 。 返座(retrotransposition)
即mRNA转录本经过反转录为cDNA,再插入基因 组,由于插入位点不合适或序列发生变化而导致失去 功能。这种类型的假基因不含内含子,被称为已加工 假基因或返座假基因。
二、基因簇(gene cluster )
1-c/c0
复杂性X 1
复 性 分 数 ( )
Cot
不同原核生物的Cot曲线
真核生物DNA 复性曲线的模 式图
复性反应分为 三P相74,图每-相16代 表不同复杂长 度的序列类型
根据复性动力学特征的不同,将真核生 物DNA序列分为4类: 零时复性序列 快速复性序列 中速复性序列 慢速复性序列
相同核苷酸数量的DNA,复杂性小的DNA分子复性 快,Cot (1/2)值小;复杂性大的DNA分子复性慢,Cot (1/2) 大。
Cot曲线:表示复性速度与DNA顺序复杂性的关系。
Cot曲线
2.利用复性动力学鉴定基因组序列
原核生物Cot曲线的特点:
形状相似(跨越2-3个数量级),Cot(1/2)不相同 --单一序列,只是复杂性不同。
因家族, 一般往往以基因家族的形式存在。
Alu family(Alu 家族):
•长约300bp的片段,大多数片段含有一个限制性内切 酶AluⅠ的酶切位点(AGCT); • 均匀分散在整个基因组中的非重复序列间; • 在人类基因组中占1% ~ 3%;
4)慢速复性序列:
C0t1/2一般在103mol.s/L以上,复性速度极慢, 在一个基因组中只有一个拷贝或2~3个拷贝,也 称非重复序列(单一序列、单拷贝序列)。 结构基因 (蛋白质基因)大多是单拷贝序列。
1)零时复性序列:
具有反向重复结构(也称回文结构),可在 同一条链内形成双链区,变性后再复性时,在链 间复性之前就已发生链内复性,因此不遵循二级 反应动力学方程。由于这种序列的复性速度非常 快,在动力学上称为零时(或瞬时)复性序列。
DNA复性后可出现发卡形结构。这种序列常 常是DNA复制酶、转录酶以及特异蛋白质的结合 部位。
三、真核生物基因组的非重复序列和重复序列
1. DNA复性动力学
DNA的复性过程遵循二级反应动力学。
DNA复性过程中复性的速度用公式表示: dC/dt= -kC02
其中,C是单链DNA在t时刻的浓度。 k=复性速度常数
对上式积分后重排,得出复性动力学方程: C/C0=1/(1+ k C0t)
C0为单链DNA的起始浓度,C为单链DNA在t时刻的浓度, 单位mol/L。 t为复性时间,单位为s(秒)。重组速率常数k的 单位为L/mol,取决于阳离子的浓度、温度、片段大小和DNA 序列的复杂性。
二、真核生物基因组的基因数量
不同物种编码基因差别很大,从500个到50000个, 有100倍的差距。
真核生物的基因数量通常在6000到50000之间。 人的基因组的全长为大约3 X 109对碱基,编码 3-4 万个基因; 但某些寄生的真核生物,如脑微孢子虫,基因数量 可能不超过3000个,比很多细菌的基因数量还少。
mRNA
DNA
鸡卵清蛋白成熟mRNA与DNA杂交电镜图
断裂基因
前体mRNA
Introns 去除 Exons 连接
1.内含子的相位和类型
(1) 内含子相位
内含子可以出现在转录本的任何位置,甚至在以后成为密 码子的三核苷酸之间。
若内含子位于一密码子的第三位核苷酸和另一密码子的第 一位核苷酸(即两密码子之间),则被称为0位内含子;相应地, 位于一密码子的第一位和第二位核苷酸之间的内含子被称为1位 内含子;位于第二和第三位之间时,则被称为2位内含子。
•同一门中的动物C值变化很大 如:两栖类中的C值变化很大,可相差100倍 家蝇的比果蝇的大6倍
说明真核生物基因组中许多的DNA序列不编码蛋白质。
植物 鸟类 哺乳动物 爬行动物 两栖动物 硬骨鱼 软骨鱼 棘皮动物 甲壳动物 昆虫 软体动物 蠕虫 霉菌 藻类 真菌 格兰氏阳性菌 格兰氏阴性菌 支原体
阴影部分为一个门内C-值的范围
3)中速复性序列:
也叫中度重复序列(moderate repetitive sequences)
基因组中重复次数<105的重复顺序,重复单位平均长 度约300bp;
复性速度快于单拷贝顺序,慢于高度重复顺序。 多与单拷贝基因间隔排列。 多为非编码序列,如Alu序列 也有编码基因产物的,如rDNA、tDNA、组蛋白基
第三节 基因家族和基因簇
( Gene family 、 Gene cluster)
基因家族(Gene family):真核生物的基因组中许多来源 相同,结构相似、功能相关的一组基因。
一、基因家族
1.基因家族的成因 基因家族的各个成员都是由某一祖先基因经重复 (复制)和突变产生的。 2.基因家族的特点 基因家族的各个成员之间来源相同,结构相似、 功能相关。
人类珠蛋白基因家族---典型的基因家族
珠蛋白 血红蛋白
血红素
α2β2 不同的亚基由各自的基因编 码
血红蛋白( Hb )
发育过程中的珠蛋白的亚基组成
类α链
α2γ2
2% 97% 1%
类β链
两种亚基的编码基因分别形成两个不同的基因簇, 并存在于不同的染色体上。
每个基因簇中的基因按其在发育过程中的表达次序从 5’→3’排列在编码链上(其中包括有功能的基因和假基 因)
3.假基因( Pseudogenes ):
概念:基因组中存在的一段与正常基因非常相似但不 能表达的DNA序列。
分为两大类: 一类保留了相应功能基因的间隔序列; 另一类缺少间隔序列,称为加工过的假基因或返座 假基因。
假基因(pseudogene)具有与功能基因相似的序列, 但由于有许多突变以致失去了原有的功能,所以假 基因是没有功能的基因,常用ψ表示。
原初转录物中通过RNA拼接反应而保留于成熟 RNA中的序列或基因中与成熟RNA序列相对应的 DNA序列。
DNA 与成熟RNA间的对应区域 非间隔区(unspacer) 氨基酸的编码区(amino acid coding region)
1.外显子具有保守的序列
不同物种中的同源基因的外显子序列通常是保守 的。尤其是编码区内的外显子具有很强的保守性,但 处于5’和3’非编码区的外显子有时会发生变化。
一个重复单位(基因簇 gene cluster)的组织情况:
海胆: H1
H4
H2B
H3
H2A
不转录间隔区 组织方式因不同生物而异: 基因次序、间隔区的长短、重复频率
组蛋白基因表达特点:① 没有内元 ② 没有多聚A尾巴
1010 109 108 107 106




蠕昆鸟
两哺




虫虫类
栖乳

类类
☆ C值悖理理论(C-value paradox)
指 C值与生物进化复杂性之间不相对应的现象,也 叫 C值反常理论。
表现:
•低等动物的C值大于高等动物 如:两栖类的C值大于哺乳类 肺鱼的C值比哺乳动物大10-15倍
小)相同的前提下,DNA分子的C0t (1/2)值,取决于核苷 酸的排列exity) X:最长的没有重复序列 的核苷酸对的数值。
AAAAAAAA
X=1
ATCGATCGATCG X = 4
N= 105
X = 105
X= k Cot1/2
Cot(1/2) = 1/k (mol. Sec / L)
第四章 真核生 物基因组结构
第一节 真核生物基因组的组成
一、真核生物基因组的大小
C值(C-value):一个物种单倍体基因组的DNA含量, 通常称为该物种的C值。
每个物种的C值是相对恒定的,不同物种的C值差 异极大。
一般随着生物结构和功能复杂程度的增加而C值增 大,即:生物细胞中的C值具有从低等生物到高等生物 逐渐增加的趋势。
真核生物DNA 复性曲线的模 式图
复性反应分为 三P相74,图每-相16代 表不同复杂长 度的序列类型
大部分结构基因 位于非重复的 DNA序列内
第二节 断裂基因(split gene)
不连续基因(interrupted gene)
编码某一RNA的基因中有些序列并不出现在成熟 的RNA序列中,成熟RNA的序列在基因中被其他的 序列隔开。
概念:基因家族中来源相同、结构相似和功能相关的 在染色体上彼此紧密连锁的一组基因。
它们属于同一个祖先的基因扩增产物,也常常包 括一些没有生物功能的假基因。 如:编码催化同一新陈代谢途径的不同步骤的酶的结 构基因 。这些基因各自编码的酶常能组成多酶复合物。 细菌同一操纵子中的几个结构基因也可称为基因簇 。
相关主题