第2章 基因和基因组
• 对于质粒和其他染色体外成分,如果是自 然产生的质粒,用三个正体字母表示,第 一个字母大写,例如:ColeI;但如果是重 组质粒,则在两个大写字母之前加一个p,
大写字母表示构建该质粒的研究者或单位。 例如:pSCl01, (SC代表StanleyCohen), 及pM丁555(MT代表 ManchesterTechnology)。
(二)各物种基因组大小比较
开花植物 鸟类 哺乳动物 爬行动物 两栖类 硬骨鱼 软骨鱼 棘皮动物 甲壳类 昆虫 软体动物
线虫 霉菌 藻类 真菌 革兰氏阳性菌 革兰氏阴性菌 支原体
一个物种单倍体染色体数 目称为该物种的基因组。
一个单倍体基因组的 DNA含量是恒定的,称 为 C-值(C-value)
各门类物种的C-值
• 对果蝇基因命名的例子最繁多,特别是在 发育生物学中。对突变表型的表示用1—4 个字母代表。例如,基因v.fiite(w), tailless(c/J),hedgehog (AA);而蛋白质 则为White,Tailess,Hedgehog。
• 对于酵母,一般用三个大写斜体字母表示 基因的功能,后面的数字表示不同的基因 座。例如,啤酒酵母基因GAL4,CDC28; 其表达的蛋白质则是: GAlA,C13~8。但 也有例外,例如非洲粟酒酵母基因是gal4, cdc2;蛋白质为:GaB,Cdc2。
包括转录的启动子、上游的其他调控区域、 基因本身、转录的终止序列
狭义
• 能产生一个特定蛋白质的DNA序列
染色体外遗传物质
• 质粒 • 叶绿体 • 线粒体
二、基因的命名
原则:
• 用三个小写英文斜体字母表示基因的名称, 例如涉及乳糖代谢相关的酶基因:lac;涉 及亮氨酸代谢相关的酶基因:leu。
4.大部分DNA序列用于编码,只有很少序列 不编码(非编码序列较少);
5. 基因组中功能基因丛集成一个或几个特定 区域,构成多顺反子结构;
6. 除反转录病毒外,病毒基因组只有一个拷 贝;
7.有的病毒基因组中具有宿主细胞基因组的 结构特点;
病毒基因组特点
经济原则
1、共11个蛋白质 基因,但只转录3 个mRNA 2、其DNA分子绝 大多数用于编码蛋 白质,不翻译的序 列只占4%; 3、最显著的特点 是有重叠基因和基 因内基因。
• 外元(exon):基因中编码的序列,是对 应于信使RNA序列的区域;
• 内元(intron):不编码的间隔序列,是在 信使RNA被转录后的加工中去除的区域;
• 如果一个基因有n个内元,则相应地含有 n+1个外元
1
3
2
DNA
mRNA
1
3
2
电镜观察
S1酶处理外切酶 VII Nhomakorabea碱
碱
处
处
理
理
1+2+3
1+2 1 2
第二章 基因和基因组
主要内容
• 基因的概念 • 基因的命名 • 基因组大小和C-值矛盾 • 重叠基因 • 基因组 • 真核生物的DNA序列 • 基因家族
一、基因的概念
广义
• 是原核生物、真核生物以及病毒的DNA和 RNA分子中具有遗传效应的核苷酸序列, 是遗传的基本单位。
• 包括结构基因和调控基因 • 遗传单位的概念从基因扩展为转录单位,
• 在三个小写英文斜体字母后面加上一个斜 体大写字母表示其不同的基因座,全部用 正体时表示蛋白产物和表型;例如,对于 大肠杆菌和其他细菌,用三个小写字母表 示一个操纵子,接着的大写字母表示不同 基因座,lac操纵子的基因座:lacZ,lacY, lacA;其表达产物蛋白质则是lacZ,lacY, lacA。
• 亲源关系密切的生物C值相差甚大,如豌豆 为14,蚕豆为2;
• 高等真核生物具有比用于遗传高得多的C值, 如人染色体组DNA含量在理论上包含300万 个基因,但有实际用途的基因只有5-10万 个左右。
四、重叠基因
• 定义:核苷酸序列彼此重叠的2个基因为重 叠基因overlapping genes,或称嵌套基因 nested genes。
各个种类生物的最小 基因组与其复杂性正 相关
两哺
支
栖乳
原细酵霉线昆鸟动动
体菌母菌虫虫类物物
(三)C-值矛盾(C-value paradox): 基因组大小与机体的遗传复杂性缺乏相关性。 即真核生物中DNA含量反常的现象。
几种常用实验动物的基因组大小
C值矛盾的表现:
• C值不随生物的进化程度和复杂性而增加, 如肺鱼的C值为112.2,而人的为3.2;与牛 相近;
五、基因组
• 原核生物基因组 • 病毒基因组 • 真核生物基因组
一、原核生物基因组
• 染色体基因组:环状或线状的双链DNA分 子所含有的全部基因。
• 染色体外基因组:质粒基因组。
细菌的基因组和染色体
1、细菌细胞
大小:直径,0.1~5.0μm, 长度,2~8μm; 形状:球菌,杆菌,螺旋菌
• 种类: a.一个基因核甘酸序列完全包含在另一个 基因中; b.两个基因的核苷酸序列部分重叠; c.两个基因的核苷酸序列的末端密码子相 互重叠
• 实质:两个基因虽共用一段核苷酸序列, 但其读码结构互不相同,编码不同的蛋白 质。
• 意义:使DNA的利用率提高,是基因表达 调控的方式之一。
• 目前,在少数原核生物(大肠杆菌、病毒) 中发现,在少数真核生物中也发现了类似 的基因重叠现象(果蝇)。
sey,myc,蛋白Sey,Myc。
• 人类基因的命名方法与脊椎动物相似,但
需大写。例如基因是MYC、EN01,蛋白质
则为MYC、EN01。
三、基因组大小和C-值矛盾
(一)断裂基因 • 定义:断裂基因(split gene):不连续的
基因称为断裂基因,指基因的编码序列在 DNA上不连续排列而被不编码的序列所隔 开。 • 构成:断裂基因由一系列交替存在的外元 和内元构成,基因的两端起始和结束于外 元,对应于其转录产物的5`和3`末端;
• 线虫用三个小写斜体字母表示突变表型, 如存在不只一个基因座,则在连字符后用 数字表示,如基因unc-86,ced-9;蛋白 UNC-86;CED-9。
• 目前还没有适用于所有植物的惯用命名法, 但大多数也用1—3个小写字母表示。
• 脊椎动物一般用描述基因功能的1--4个小写 字母和数字表示其基因功能。例如,基因