当前位置:
文档之家› 基因功能注释_后基因组时代面临的挑战_王行国
基因功能注释_后基因组时代面临的挑战_王行国
的大肠杆菌基因组, 离这一要 求仍有相当的距 离。 在完成了 DNA 测序的基因组中, 基因功能注释的不 完善不仅影响基因组学本身的研究和应用, 而且严 重阻滞了目前方兴未艾的其它诸如蛋白质组学等各 种组学的研究以及其它现代生物科学的发展。
1 基因功能注释需要实验证据
对基因组内基因功能的注释目前主要是利用计 算机程序通过与数据库中其它生物基因组中已注释 的 ORF 进行序列比对来完成的。计算机根据与一 已知功能的基因或基因产物的相似性来预测新测序 的基因的功能, 这种方法至少有两个问题值得商讨: 第一是如何界定一个已知功能的基因维持正常功能 所需核心组成部分的大小? 第二是界定两个具有相 同或相似功能的基因需要何种程度的等同性、相似 性或 E - 值? 生物进化既具有趋同性, 也具有趋异 性。蛋白质分子结构与功能也同样存在趋同或趋异 进化。相似性很差的蛋白可能催化相同的反应 [ 2] , 相同而具有 98% 等同性的蛋白也 可能具有完全不 同的功能 [ 3] 。因此, 武断地界定两个基因在功能上
引言
由于现代分子生物学技术与计算机技术联姻, 使得基因组 DNA 测序工作变得简便快捷。近十几 年来, 从微生物到人类数以百计的生物基因组完成 了整个 的 DNA 测 序 工 作 ( www. cnb.i nih. gov / genom es/, www. genom eson line. org / ), 今后每年仍将 不断地有新的生物基因组序列发表。如此众多的生 物基因组完成了 DNA测序, 由此获得了巨大的基因 信息数据。可惜的是这些解序的基因组资信目前并 没有充分发挥它们应有的作用。许多研究人员都会 有这样的经历: 当把一段未知功能的序列放到数据 库中进行比对时, 得到许多高同源性的类似序列, 但 却不知道它们为何物。也就是说, 将一个未知数输 入数据库求解, 得到的 答案却仍然是 一堆未知数。 一个基因组解序后, 获得的数据不仅需要在 DNA 水 平上解读处理, 更重要的是每个基因都应该注释出 相应的生物学功能。只有给每个基因都注释了生物 学功能的基因组资料才具有真正的科学价值。由于 缺少基因功能的资料和各种其它原因, 目前发表的 数以百计的基因组资料, 包括研究较深入、完成较早
2 基因组中的未知功能基因
目前存放在各个基因资料库中的数百种生物的 基因组中, 许多基因没有注释功能。在任何一个解 序的细菌基因组内, 存在高达 30~ 40% 的未知功能
基因 [ 1] 。即使在研究最深入全面、一直作为分子生 物学研究的模式菌的大肠杆菌 ( E scherichia coli ) 基 因组中, 未知功能的基因仍占 20% [ 7] 。这 个数字 在解码的古菌、具复杂生活史且基因组较大的细菌 ( 如螺旋菌 Borreila burgdorf eri ) 乃 至真核生物 基因 组中甚至更高。例如在真核生物疟原虫 ( P lasm odium falcip arum )基因组中, 未知 功能的基因达 60% 以上 [ 8] 。在这些未知功能基因中, 种属特有的基因 占一小部 分, 即所谓 的 / 推定的 0 ( hypo thetical) 基 因。而绝大数是那些往往在多种生物中都有分布、 通常称之为 / 保守假定的 ( conserved hypothetical) 0 基因。
Annotation of G ene Function: A Big Challenge in the Post-genom ic E ra
W ANG X ingguo ( T he Schoo l o f L ife Sc iences, H ubei Un iversity, W uhan 430062)
通过使用这些高通量的方法, 可以获得一些关 于调节和分子间相互作用的重要信息, 并为赋予一 些未知基因可能的功能提供有价值的线索。除此之 外, 常规的亚细胞蛋白定位、基因干扰的表型变化以 及蛋白质三维结构的解析也能够为未知基因的功能 提供重要的线索。然而, 值得注意的是许多基因编 码酶蛋白。对于未知酶基因的功能预测, 仅靠使用
第 10 页
www. globesci. com
2007年 2月
世界科技研究与发展
科技前沿与学术评论
上述高通量的方法并不能提供有用的资信。常规的 分子生物学与生物化学方法虽然不一定高通量, 却 十分有效。例如: 磷 脂酰 胆碱 合成 酶 ( Pcs) 催化 CDP - DAG 与胆碱缩合生成磷脂 酰胆碱合成酶的 反应。将 未 知 功 能 的 B orrelia burgdorferi BB0249 ORF通过表达载体导入大肠杆菌, 让转化子在含有 胆碱的培养基上培养并检测细菌磷脂的组成成分。 由于大肠杆菌本身没有磷脂酰胆碱, 但具有代谢中 间产物 CDP - DAG, 因此只要转化子细胞膜上出现 磷脂酰胆碱成分, 说明导入细菌的基因的表达产物 能利用细菌代谢中间产物 CDP - DAG 和培养基中 的胆碱作底物并合成磷脂酰胆碱, 也就证明 BB0249 OR F 编码磷脂 酰胆碱合成酶 [ 17] 。同样地, 导入的 B. burgdorf eri BB0271 ORF 能使 E. coli pgsA- 恢复 野生型的表型, 说明 BB0271 ORF 编码磷脂酰甘油 磷酸合成酶 ( Pgs) [ 17 ] 。
第 29卷 第 1期 2007年 2月 9- 12页
世界科技研究与发展
WORLD SCI-TECH R& D
V o.l 29 N o. 1 Feb. 2007 pp. 9- 12
基因功能注释 ) ) ) 后基因组时代面临的挑战
王行国
( 湖北大学生命科学学院, 武汉 430062)
摘 要: 在已经解序的、数以百计的生物基 因组中, 存 在大量 编码未 知功能 蛋白的 基因序列。 同时, 众多已 知功能 的酶蛋白在解序的基因 组中找不到对应的基因。确定未知功 能基因 的功能 和寻找 孤儿酶 对应的基 因是后 基因组 时代面临的极具挑战性 的科学任务。本文综合讨论了目前基 因组中 基因功 能注释 存在的 问题及解 决这些 问题的 策略与方法。 关键词: 基因功能注释 未知功能基因 孤儿酶
鉴定未知基因功能的技术方法很多, 当前较热 门的一些高通量的 方法诸如微阵 列芯片技术 ( m -i croarrays)都 可以用 来帮 助确 定未知 基因 的功 能。 蛋白质芯片 ( pro te in m icroarrays) 、双杂交系统 ( tw o - hybrid system ) 等可用来分析蛋白与核酸、蛋白与 蛋白的相互作用 [ 12~ 15] ; DNA 芯片 ( DNA m icroarrys) 可用来分析各种条件下基因的表达水平 [ 16] 。
www. g lobesci. com
第 9页
科技前沿与学术评论
世界科技研究与发展
2007年 2月
相同的阀值恐怕是有问题的, 因为这些参数在每一 功能蛋白群内可能不尽相同。
即使不考虑上述因素, 在已注明功能的基因中 还存在 30~ 40% 左右的未知功能基因。此外, 还常 常出现描述不准确或给出一个非常模糊的功能 ( 例 如推定的某某酶或某某蛋白 ) 。更令人不安的是高 达 5~ 10% 预测的基因功能可能是不正确的 [ 4 ] 。造 成这种错误的原因各种各样, 而且随着更多基因组 的注释, 这些错误在不同基因组资料中迅速地扩展。 一个典型的例子是 N - 酰基转移酶 O lsB[ 5 ] 和酰基 载体蛋 白 磷酸 二 脂酶 A cpH [ 6] 。 N - 酰基 转 移酶 O lsB的功能是在其编码基因功能注释之后发现的。 原来对该基因编码的蛋白 COG3176 的功能注释为 一种具有溶血素作用的 PhyA。即使 O lsB 和 PhyA 之间的同源性很差, 但 O lsB及其同源类似基因在基 因组中通常被注释成保守假定的蛋白或推测的溶血 素。实际上 O lsB并没有溶血素的功能。它是一个 N - 酰基转移酶, 催化细菌中广泛分布的一种含乌 氨酸脂类生物合成的 第一步反应 [ 5] 。酰基载体蛋 白磷酸二脂酶的活性早在上世纪 60年代就已经发 现了。该酶催化将 4-' 磷酸泛酰巯基乙胺基团从酰 基载体蛋白 A cpP 上切割下来。上世纪 90年代, 酰 基载体蛋白磷酸二脂酶从大肠杆菌中被部分纯化出 来, 并且获得了该蛋白 N - 端的氨基酸序列。尔后 根据 N - 端的氨基酸序列的信息, 将大肠杆菌基因 组中的 A cpD 注释为酰基载体蛋白磷酸二脂酶。这 个错误的注释又被延用到其它基因组注释当中去。 实际上, AcpD ORF 编码一种偶氮还原酶, 没有酰基 载体蛋白磷酸二脂酶的活性。而真正编码酰基载体 蛋白磷酸二脂酶的却是另外一个基因 acpH [ 6 ] 。
如此高比例的未知功能基因除了少数可能来源 于研究人员的疏忽比对, 更多的则来自缺少可供利 用的相关基因的基本功能的资信。
近年来一些生物信息学家开始使用比较基因组 学 ( comparative genom ics)的方法来预测未知功能基 因的生物学功能 [ 9, 10 ] , 但使用这些方法也只能提供 非常一般性的预测。为了解决这些众多的未知功能 基因的问题, 美国科学家 Roberts R J呼吁生物信息 学家应与实验生物学家联合行动, 一起来鉴定未知 基因的蛋白质功能 [ 9] 。对于那些推定的基因、保守 假定的基因以及错误 注释的基因, Roberts RJ建议 先由生物信息学家预测未知基因可能的功能并分门 别类地放在一个中心网站上, 然后由生物学家根据 自己的条件选择相应的基因并在实验室测试它们的 功能。无论结果正或负, 最后都必须送回同一中心 网站。 Roberts R J还建议可以先从一个易于实验处 理的生物 ( 如 E. coli) 基因组开始 [ 11] 。
Abstrac t: A large fraction o f predicted genes encodes prote ins o f unknown biochem ical function in a ll sequenced genom es. M eanwh ile, no any sequence inform ation in genom ic databases is ava ilable fo r thousands of orphan enzym es w hich enzym e ac tiv ities have prev iously been character ized bio chem ica lly. A nnotation of genes w ith no assoc iated function and e luc ida tion o f at least one am ino acid sequence fo r every enzym e w ith know n enzym e activ ity but no asso ciated sequence are a big cha-l lenge fo r sc ientists in the post- genom ic era. In this paper, drawbacks in the anno tation of gene function cu rrently used in genom ics and som e strateg ies benefic ial to the annota tion o f gene function are d iscussed. K ey word s: annotation o f gene func tion, genes w ith unknow n function, o rphan enzym es