结构基因组学
当某一序列从数据库中无法找到同源序列,又 无法排除其是不是基因的可能性时,必须依靠 实验来进一步确认。
两点说明:
在DNA水平上区分同源基因的难度要大于氨 基酸水平。
原因:密码子的摇摆性,相似氨基酸的取代。
确定两个基因是否同源,氨基酸序列的比较 以及蛋白质高级结构的模拟给出的结果更为 可靠。
原因:同源基因功能相似,关键位置氨基酸相同。
蛋白质的域结构 (domain architecture)
又称为蛋白质指纹(protein fingerprint):
用来特指蛋白质中结构域的组合形式及其排 列次序。
蛋白质的整体功能是通过各个结构域之间的 协同作用实现的,结构域的组成提供了蛋白 质功能解读的关键信息。
举例:细胞跨膜信号传导蛋白的结构域
物种之间存在着广泛的同源基因,包括编码和非编码序列。
生 物 基因组相似性% 99.9 100 98.4 98.7 98.38 98 85 95 孪生子 Americans for Medical Progress Celera Genomics Am J Hum Genet 2001, 682: 444 ~ 456. Americans for Medical Progress NHGRI Jon Entine, in the San Francisco Examiner 资料来源 Human Genome Project 人类 黑猩猩 大猩猩 小鼠 狗
外显子 2
(2)分枝点顺序:为 Py80NPy87Pu75APy95 , 其中A为百分之百的保 守,且具有2’-OH。
(3)内含子5’端有一保 守序列可以和U1 snRNA 的5’ 端的保守顺序互补。
OH 外显子1 UG O
AG
P314 外显子 1 外显子 2
核 RNA 的剪接反应(仿 B.Lewin: 《GENES》Ⅵ,1997,Fig30.5)
有时2个无明显亲缘关系的蛋白质含有 个别相同的结构域: 分析:
②
可能具有相似的生物学功能,相似的结构域 是蛋白质功能的核心区域。 基因本身无共同的祖先,但其结构域却有共 同的起源。
举例:涉及mRNA加工的蛋白质
线虫
74
Jon Entine, in the San Francisco Examiner
注:以人类基因组DNA序列为基准,与其他生物基因组DNA序列对比。
Ⅰ 同源查询(homology search)
利用已存入数据库中的基因序列与待查
的基因组序列进行比较,从中查找可与
之匹配的碱基序列或蛋白质序列及其比
生物的基因组特有组成也可作为判别依据,如几乎 所有的管家基因(House-Keeping gene)及约占 40%的组织特异性基因的5’末端含有CpG岛。在大 规模DNA测序计划中,每发现一个CpG岛,则预示 可能在此存在基因。
Ⅴ 外显子与内含子边界
Chambon等发现内含子特点:
(1)内含子连接点具有很短的保守序列,称为边界顺序。其 规律称为GT-AG法则(GT-AG rule) 或Chambon法则。 。
①
② ③
接受外界信号的受体功 能域; 传达信号的胞内激酶域; 蛋白质定位在细胞膜上 的跨膜域。
蛋白质结构域在基因的功能预测中起着极其
重要的作用,是预测基因功能的主要依据之一。
①
同一物种或不同物种中具有相同结构域的蛋白 质可将其划归在同一蛋白质家族(protein family),当其他物种相关蛋白质家族成员的 功能已知时,根据同源性可以推知另一物种相 同结构域蛋白质的功能。
全长cDNA的编码蛋白序列应为4-029B,而非最 长的4-029A。
Ⅱ 起始密码子 ATG
第一个ATG的确定依据Kozak规则。 Kozak是一个女科学家,她研究过起始密码子ATG 周边碱基定点突变后对转录和翻译所造成的影响, 并总结出在真核生物中,起始密码子两端序列 为:——G/N-C/N-C/N-ANNATGG——,如 GCCACCATGG、GCCATGATGG时,转录和翻译效 率最高,特别是-3位的A对翻译效率非常重要。 该序列被后人称为Kozak序列,并被应用于表达载 体的构建中。
Ⅵ 3’端的确认
3’端的确认主要根据Poly(A)尾序列,若测试 序列不含Poly(A),则根据加尾信号序列 “AATAAA”和BLAST同源性比较结果共同 判断。
转录起始
延伸
5 ’帽子
AAUAAA 剪切
Poly (A) 聚合酶
5’帽子
AAUAAA
An
mRNA 3 ’端加 Poly(A)尾巴
Ⅶ 编码区与非编码区
一致性和相似性可用百分比表示,相似性往往高于一致性。
同源基因有关概念:
A.
B.
直向同源基因(orthologous gene):指分布在不 同物种之间的同源基因,它们来自物种分隔之前的 同一祖先。 共生同源基因(paralogous gene):指同一物种因 基因倍增产生的同源基因。(旁系同源基因) 倍增基因(ohnologous gene):因全基因组加倍 产生的同源基因称~。 异向同源基因(xenologous gene):不同物种之 间因水平转移产生的同源基因称~。
例,这种识别基因的方法称为~。
同源查询相似性的表现:
A. B. C. D.
存在某些完全相同的序列; ORF的排列类似,如等长的外显子; ORF的氨基酸序列相同; 模拟的多肽高级结构相似。
以上标准可单独使用,亦可综合考察; 一般认为氨基酸的一致性或相似性在25%以 上可视为同源基因。
Ⅱ 区分概念: 同源性、一致性和相似性
最长ORF法
①
在细菌基因组中,蛋白质编码基因从起始密
码子ATG到终止密码子平均有100 bp,而
300 bp长度以上的ORF平均每36 Kb才出现
一次,所以只要找出序列中最长的ORF(>
300 bp)就能相当准确地预测出基因。
②
在真核生物中,存在大量非编码序列和内含 子,ORF阅读比较复杂。
全长cDNA的编码区一般也可以用最长ORF 法,如水稻的3万多条的全长cDNA的编码 区预测,有时例外。
Kozak规则的内容:
若将第一个ATG中的碱基A、T、G分别标为1、2、 3位,则Kozak规则可描述如下: (1) 第4位的偏好碱基为G; (2) ATG的5’端约15bp范围的侧翼序列内不含碱基T; (3) 在-3,-6和-9位置,G是偏好碱基; (4) 除-3,-6和-9位,在整个侧翼序列区,C是偏好碱 基。 Kozak规则是基于已知数据的统计结果,不见得必须 全部满足,一般来说,满足前两项即可。
(Dunham I 等,2001)
5.1.3 实验确认基因
①
依据:任何基因都可转录为RNA拷贝。
分子杂交可确定DNA片段是否含表达序列— —Northern印迹(Northern boltting)。 由EST和cDNA指认基因——搜集尽可能多的 EST和cDNA成员是基因组注释最简单最可靠 的方法。
C.
D.
globin 基因的直系同源、旁系同源关系图
物种种化(speciation event)而产生了直系同源(orthology)的基因序列,基因重复 (duplication event)而产生了旁系同源(paralogy) 的基因序列。
在基因分类时,缺少同源序列的ORF被称为孤 独基因(orphan gene)。
任意一段DNA序列都有6种可能的读码框。
ORF的长度:
终止密码子: TAA, TAG, TGA
GC% = 50%,终止密码子每 64 bp出现一 次; GC% > 50%,终止密码子每100~200 bp 出现一次; 由于多数基因 ORF 均多于50个密码子,因 此最可能的选择应该是 ORF 不少于100 个 密码子。
②
5.2 基因功能预测
根据基因结构、功能与进化的内在联系, 采用生物信息学方法进行基因功能的预 测已成为基因功能前期研究的主流内容。
5.2.1 计算机预测基因功能
采用软件分析方法,根据已有的基因功能推测 基因组中具有相似结构的基因的功能。
依据:同源性比较
直向同源基因,共生同源基因
蛋 白 质 结 构 预 测
A.
同源性(homology):起源于同一祖先但序列已 经发生变异的序列之间的关联性。
同源性只有“是”和“非”的区别,无所谓百分比。
B.
C.
一致性(identity):同源DNA序列的同一碱基位 置上相同的碱基成员,或者蛋白质中同一氨基酸 位置上相同的氨基酸成员的比例。 相似性(similarity):同源蛋白质的氨基酸序列中 一致性氨基酸和可取代氨基酸所占的比例。
左(5')位点 外显子 A64G73 G100 T100A62AG8G84T63… 内含子 右(3')位点 12PyNC 65A100G100 N 外显子
GT-AG 法则 内含子和外显子的交界顺序 ( 仿 B.Lewin: 《GENES》Ⅵ ,1997 ,Fig30.3)
OH G A G
外显子 1
是否为基因的结论。
② 人工注释:人为检测评价自动注释的结果并
根据其他数据进行分析与校正。
③ 实验注释:根据实验结果进行检测,如EST
或全长cDNA。
自动注释的内容:
①
②
依据基因结构的特点采用软件预 测,不依赖已有的表达序列; 同源性比较,在同一物种或不同 物种中查找已有的基因序列; 功能域(domain)或基序 (motif)分析。
Ⅲ 密码子偏爱性(codon bias)