当前位置:文档之家› 基因组学课件5基因组序列的诠释PPT

基因组学课件5基因组序列的诠释PPT

高等真核生物DNA的ORF的阅读障碍: 基因间存在大量非编码序列(人类基因组
占70%) 很多基因含有内含子 由于多数外显子长度<100个密码子,当读
码进入到内含子时很快就遇到终止密码, 从而难以判断读码的准确性
中英联合实验室 8
根据开放读码框(ORF)预测基因
A 起始密码子 ATG
第一个ATG的确定(依据Kozak规则) Kozak规则是基于已知数据的统计结果 所谓Kozak规则,即第一个ATG侧翼序列的碱基分布 所满足的统计规律
中英联合实验室 9
Kozak规则: 若将第一个ATG中的碱基A,T,G分别标为1, 2 , 3位,侧翼碱
基序列具有以下特征: 第4位的偏好碱基为G ATG的5’端约15bp范围的侧翼序列内不含碱基T 在-3,-6和-9位置,G是偏好碱基 除-3,-6和-9位,在整个侧翼序入数据 库中的基因序列与待查基因组序列进行比较,从 中查找可与之匹配的碱基顺序及其比例用于界定 基因的方法
孤独基因(orphan gene):指在基因分类时缺少 同源顺序的ORF 中英联合实验室
19
5.1 在基因组中搜寻基因
实验分析确认基因
寻找ORF的成功的关键在于终止子在DNA序列中出 现的频率
中英联合实验室 6
5.1 在基因组中搜寻基因
终止子出现的频率与CG含量之间的关系
CG含量
<50%
=50%
>50%
终止子出现 <64bp即可出 64bp出现一 >64bp才可
的频率
现一次

能出现一

中英联合实验室 7
5.1 在基因组中搜寻基因
1. 在基因组中搜寻基因
根据顺序分析搜寻基因 实验分析确认基因
2. 基因功能的测定
中英联合实验室 4
5.1 在基因组中搜寻基因
根据序列分析搜寻基因
A 起始密码子 ATG B 信号肽分析 C 终止密码子 D 3’端的确认 E 非编码序列、内含子 F 密码子偏爱性 G 外显子-内含子边界 H 上游调控序列 I 软件预测
D 3’端的确认
3’端的确认主要根据Poly(A)尾序列,若测 试DNA片段不含Poly(A)序列,则根据加尾信 号序列“AATAAA”和BLAST同源性比较结 果共同判断
中英联合实验室 13
E 非编码序列、内含子
高等真核生物多数外显子长度少于 100 个密码子,有的不到50个密码子甚 至更少
中英联合实验室 14
分子杂交可确定DNA片段是否含有表达顺序 Northern blot:指将待测DNA样品标记后与RNA杂
如:内含子的5‘端或称供体位(donor site) 常见的顺序为 5’ -AG↓GTTAAGT-3’
3’端又称受体位(acceptor site),多为 5‘PyPyPyPyPyPyCAG-3’ (Py:嘧啶核苷酸, T或C)
中英联合实验室 16
H 上游调控序列
几乎所有基因(或操纵子)上游都有调控序列, 它们与DNA结合蛋白作用,控制基因表达
中英联合实验室 10
B 信号肽分析
信号肽分析软件(SignalP) http://www.cbs.dtu.dk/services/signalP
把预测过程中证实含完整mRNA 5’端的序列翻 译为蛋白序列
然后用SignalP软件对前50个氨基酸序列(从第 一个ATG对应的甲硫氨酸Met开始)进行评估, 如果SignalP分析给出正面结果,则测试序列有 可能为信号肽
中英联合实验室 17
I 软件预测
采用NCBI的ORF预测软件 ( ORF finder: /gorf/orfig.cgi ) 判断ORF的可能范围
中英联合实验室 18
5.1 在基因组中搜寻基因
适用于高等真核生物基因组的ORF扫描方法:
上游调控序列(upstream control sequence):上 游调控序列和外显子-内含子边界一样具有显著特 征,这些特征是参与基因表达的DNA结合蛋白的 识别信号。但真核的变化也较大
5 基因组序列的诠释
中英联合实验室 1
中英联合实验室 2
问题
基因组序列所包含的全部遗传信息是什么? 基因组作为一个整体如何行使其功能? 用什么方法寻找基因,研究基因的功能呢?
中英联合实验室 3
基因组序列的诠释
研究基因组的最终目的不是为了仅仅得到基因 组的全部序列,而是诠释基因组所包含的信息 和基因组功能。在这一部分中,我们主要探讨 利用什么方法来搜寻基因和研究基因组的功能
通过同源性比较来预测mRNA的5’端,最常用的 与转录起始位点相关的数据库是真核启动子数 据库(The TRADAT Project , Eukaryotic Promoter Database, EPD. http://www.epd.unil.ch/ )
另外个别生物基因组的特有组成也可作为判别 依据,如脊椎动物基因组许多基因的上游都有 CpG岛
中英联合实验室 11
C 终止密码子
终止密码子: TAA, TAG,TGA GC% = 50% 终止密码子每 64 bp出现一次 GC% > 50% 终止密码子每100-200 bp 出现一次 由于多数基因 ORF 均多于50个密码子,因此最可
能的选择应该是 ORF 不少于100 个密码子
中英联合实验室 12
中英联合实验室 5
5.1 在基因组中搜寻基因
在获得基因组或DNA序列后,可以采用人工或计算机 序列筛选的方法来获得基因。目前,使用比较多的方 法是ORF(opening reading frames)扫描
ORF:每个编码蛋白的基因都含有ORF,它是由一系 列密码子组成,通常以ATG开始,TAA、TGA、 TAG结束。通过寻找起始密码子和终止密码子的ORF 序列是寻找基因的一种重要的方法
F 密码子偏爱性
编码同一氨基酸的不同密码子称为同义密码, 其差别仅在密码子的第3位碱基不同
不同种属间使用同义密码的频率有很大差异, 如人类基因中,丙氨酸(Ale)密码子多为 GCA,GCC或GCT,而GCG很少使用
中英联合实验室 15
G 外显子-内含子边界
外显子和内含子的边界有一些明显的特征
相关主题