5.基因组序列的诠释
F 密码子偏爱性
同义密码:编码同一氨基酸的不同密码子, 差别在于密码子的第3位碱基 不同种属间使用同义密码的频率有很大差异, 如人类基因中,丙氨酸(Ale)密码子多为 GCA、GCC、GCT, GCG很少使用 种属特征性密码子序列在编码区出现,非编 码区只保持平均的碱基分布水平
中英联合实验室
13
根据序列分析搜寻基因
A B C D E F G H I 起始密码子 ATG 信号肽分析 终止密码子 3’端的确认 非编码序列、内含子 密码子偏爱性 外显子-内含子边界 上游调控序列 软件预测
中英联合实验室
6
根据开放读码框(ORF)预测基因
A 起始密码子 ATG
第一个ATG的确定(依据Kozak规则) Kozak规则--基于已知数据的统计结果 第一个ATG侧翼序列的碱基分布所的亚群进一步筛选 cDNA均一化:抑制高拷贝cDNA,增加低拷贝
cDNA数量。DNA复性动力学
合适条件下,多数高拷贝cDNA呈双链,中低拷 贝cDNA呈单链 羟基磷灰石柱吸附双链cDNA 收集单链cDNA
中英联合实验室
23
5’RACE (CLONTECH) 中英联合实验室
G 外显子-内含子边界
外显子和内含子的边界有明显的特征 内含子的5‘端或称供体位(donor site)常 见的顺序为 5’ -AG↓GTTAAGT-3’ 3’端又称受体位(acceptor site),多为 5‘PyPyPyPyPyPyCAG-3’ (Py:嘧啶核苷 酸,T或C)
中英联合实验室
中英联合实验室
32
1.基因失活
基因的功能实现--一个过程,从基因到表型的一 系列生理生化反应过程 正向遗传学:传统的遗传分析,从表型出发最 终到达基因 反向遗传学:现代基因功能研究方法,与传统 遗传分析相反,从基因出发,最终到达表型 基因组计划中基因功能研究:基因到表型。通 过系列实验方法鉴别与目标基因相关的表型 基因失活是基因功能分析的主要手段
5 基因组序列的诠释
中英联合实验室
1
问 题
基因组序列所包含的全部遗传信息是什么? 基因组作为一个整体如何行使其功能? 用什么方法寻找基因、研究基因的功能?
中英联合实验室
2
基因组序列的诠释
研究基因组的最终目的--诠释基因组所包含的 信息和基因组功能。
1. 在基因组中搜寻基因 根据序列分析搜寻基因 实验分析确认基因
①建立生物模型。 基因功能、代谢途径等研究中模型生物的建立非常 重要。基因敲除技术建立某种特定基因缺失的生物 模型,从而进行相关的研究。这些模型可以是细胞 ,也可以是完整的动植物或微生物个体。最常见的 是小鼠,家兔、猪、线虫、酵母和拟南芥等的基因 敲除模型也常见于报道。 ②疾病的分子机理研究和疾病的基因治疗。 通过基因敲除技术可以确定特定基因的性质以及研 究它对机体的影响。对于了解疾病的根源、寻找基 因治疗的靶目标都有重大意义。
10
D 3’端的确认
Poly(A)尾序列 若测试DNA片段不含Poly(A)序列,则根 据加尾信号序列“AATAAA”,与 BLAST同源性比较结果共同判断
中英联合实验室
11
E 非编码序列、内含子
高等真核生物多数外显子长度 少于100 个密码子,有的不到50个 密码子甚至更少
中英联合实验室
12
特定生物基因组的特有组成-- CpG岛,脊椎动物基因组 许多基因的上游promotor都有,长度1kb,GC比例高
中英联合实验室
15
I 软件预测
采用NCBI的ORF预测软件 ( ORF finder: /gorf/orfig.c
gi )判断ORF的可能范围
21
5.1 在基因组中搜寻基因
如何获取基因全长cDNA序列?确定其在cDNA序列的测序、对比,以及与基 因组DNA的比较,确定基因所在的区域;通过物 种已建立遗传图和物理图来确定基因的位置;
中验室
9
C 终止密码子
终止密码子: TAA, TAG,TGA
GC% = 50% 终止密码子每 64 bp出现一次
GC% > 50% 终止密码子每100-200 bp 出现一次 由于多数基因 ORF 均多于50个密码子,因此最可 能的选择应该是 ORF 不少于100 个密码子
中英联合实验室
24
3’RACE (CLONTECH) 中英联合实验室
25
5.2 基因功能的测定
一. 利用计算机分析基因功能 二. 实验分析确定基因功能
中英联合实验室
26
一.利用计算机分析基因功能
同源性确定基因功能
同源基因都拥有一个共同的祖先基因,有许 多相似序列。同源基因可以分为2类:
种间同源基因或直系基因(orthologous gene): 不同物种之间的同源基因,来自物种分化以前的 共同祖先 种内同源基因或平行基因(paralogous gene) 同一物种内的同源基因,常常是多基因家族的不 同成员。其共同祖先可能存在于物种形成以后, 也可能存在于物种形成之前
中英联合实验室
36
基因敲除基本步骤
ES细胞的获得 基因载体的构建
目的基因导入筛选靶细胞Biblioteka 观察生物学性状的改变
中英联合实验室
tk 胸苷激酶标记基因 ← gangcyclovir neor 新霉素抗性基因→G418
中英联合实验室
38
中英联合实验室
39
基因敲除技术的应用及前景:
中英联合实验室
4
5.1 在基因组中搜寻基因
高等真核生物DNA的ORF的阅读障碍: 基因间存在大量非编码序列(人类基 因组占70%) 很多基因含有内含子 由于多数外显子长度<100个密码子, 当读码进入到内含子时很快就遇到终 止密码,从而难以判断读码的准确性
中英联合实验室
5
5.1 在基因组中搜寻基因
2. 基因功能测定
中英联合实验室
3
5.1 在基因组中搜寻基因
ORF(opening reading frames)扫描:人工或计算机 序列筛选
ORF:每个编码蛋白的基因都含有ORF,由一系列密 码子组成,通常以ATG开始,TAA、TGA、TAG结束。 通过寻找起始密码子和终止密码子确定ORF序列,是 寻找基因的一种重要的方法 成功关键:终止子在DNA序列中出现的频率。
14
H 上游调控序列
几乎所有基因(或操纵子)上游都有调控序列,与 DNA结合蛋白作用,控制基因表达 原核生物调控序列有明显特点,参考 真核生物
基因上游控制序列差异较大 通过同源性比较来预测mRNA的5’端 真核启动子数据库(The TRADAT Project , Eukaryotic Promoter Database, EPD. http://www.epd.unil.ch/ )
中英联合实验室
35
基因剔除(knock-out)
基因敲除
最简便的基因失活的方法. 1987年建立, 2007年获诺贝尔生理医学奖 主要原理: 在一段无关DNA 片段的两侧连接与代换基 因两侧相同的序列, 导入目的细胞,由于同源片段 之间的重组,可使无关片段取代靶基因,整合到染色 体中. 为了便于筛选,用于取代的外源DNA中含有报 告基因
中英联合实验室
7
Kozak规则: 若将第一个ATG中的碱基A,T,G分别标为1, 2 , 3位, 侧翼碱基序列具有以下特征:
第4位的偏好碱基为G
ATG的5’端约15bp范围的侧翼序列内不含碱基T 在-3,-6和-9位置,G是偏好碱基 除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基
中英联合实验室
中英联合实验室
29
中英联合实验室
30
同源性分析在酵母基因组计划中的应用
酵母基因组大约含有6000个基因, 30%--通过传统遗传学分析得到
70%--通过同源性分析获得
中英联合实验室
31
5.2 基因功能的测定
二. 实验分析确定基因功能
基因失活 基因超表达 噬菌体展示 (phage display) 酵母双杂交(yeast two-hybridization)
中英联合实验室
33
基因失活
基因剔除(knock-out) 反义RNA技术 RNAi技术
转座子插入突变
中英联合实验室
34
5.2 基因功能的测定
基因剔除(knock-out) 最简单的基因失活方法,用一段无关的 DNA片段取代目标基因。
主要原理:用一段无关的核苷酸序列取代目
标基因的中间序列,导入生物体内或目的细 胞内,如果该基因所控制的表型发生变化, 即从反面验证了目标基因的功能。
中英联合实验室
20
5.1 在基因组中搜寻基因
DNA序列中基因位置的确定
分子杂交可以判断DNA片段中是否含有基因,但 不能给出基因定位信息 cDNA测序:获得基因定位信英联合实验室
cDNA测序受两个方面的影响:
8
B 信号肽分析
信号肽分析软件(SignalP) http://www.cbs.dtu.dk/services/signalP 把预测过程中证实含完整mRNA 5’端的序 列翻译为蛋白序列 然后用SignalP软件对前50个氨基酸序列 (从第一个ATG对应的甲硫氨酸Met开始) 进行评估,如果SignalP分析给出正面结果, 则测试序列有可能为信号肽