当前位置:
文档之家› Gene Ontology(GO)使用指南(内部资料)
Gene Ontology(GO)使用指南(内部资料)
第一部分
GO 是什么?
-1-
第一部分
GO 是什么?
GO(gபைடு நூலகம்ne ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨 在建立一个适用于各种物种的, 对基因和蛋白质功能进行限定和描述的, 并能随着研究不断 深入而更新的语义词汇标准。GO 是多种生物本体语言中的一种,提供了三层结构的系统定 义方式,用于描述基因产物的功能.
A is a B;B is part of C
第一部分
GO 是什么?
-4-
从而可以得出:A is part of C,其形式化表示为:is a·part of → part of GO 图具有树的性质,但与其不同的是,GO 图中结点不但可能具有多个孩子结点,而 且可能具有多个父亲结点,且与不同的父结点具有不同的关系 ,如下图所示:线粒体 (mitochondrion) 便有两个父亲结点,因为线粒体既是一种细胞器 (organelle) ,又是细胞质 (cytoplasm)的一部分。同样,细胞器(organelle)也有两个孩子结点,因为线粒体是一种细胞 器(organelle),细胞器膜(organelle membrane)是细胞器的一部分。
1.3 本体论语义之间的关系及其组织结构
1.3.1 语义之间关系的基本理解
基因本体论组织类似于图,语义作为图的结点,语义之间的关系为图中的边。因此, 一 旦产生新的语义,其与其它语义之间的关系也会同时被定义。语义之间的关系有四种:is a、 part of 和 regulates。 关系表示的几点约定 1. “语义”用图论的术语“结点”表示 2. 我们习惯于用父子结点来表示语义之间的关系,其中父结点离根结点较近,表示相 对宽泛的语义,而子结点离叶子结点较近,相对父结点其语义所代表的内容更为具体。 3. 图中的实线表示结点之间的关系 4. 虚线表示推理而并未证明的关系 上述可以用下图表示:
GO 提供了一系列的语义(terms)用来描述基因、基因产物的特性。这些语义分为三种 不同的种类:细胞学组件,用于描述亚细胞结构、位置和大分子复合物,如核仁、端粒和识 别起始的复合物等;分子功能,用于描述基因、基因产物个体的功能,如与碳水化合物结合 或 ATP 水解酶活性等;生物学途径,指分子功能的有序组合,达成更广的生物功能,如有 丝分裂或嘌呤代谢等。 基因产物可能分别具有分子生物学上的功能、 生物学途径和在细胞中的组件作用。 当然, 它们也可能在某一个方面有多种性质。如细胞色素 C,在分子功能上体现为电子传递活性, 在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜 上。
part of·part of → part of part of 具有传递性,如果 A is part of B,B is part of C,那么 A is part of C。形式化表示 为 part of·part of → part of。同样如下图所示:线粒体(mitochondrion)是细胞质(cytoplasm) 的一部分,细胞质又是细胞(cell)的一部分,从而可得出:线粒体是细胞的一部分。
GO 的注释(Annotation)···································································································8 GO 怎么用?·············································································································· 10 下载本体论文件和注释文件························································································ 10 GO 语义及其相关注释的浏览与搜索··········································································17 2.2.1 AmiGO 的基本使用说明····················································································17 2.2.2 语义关系的图形化描述····················································································· 20
1.3.1 1.3.2 1.3.3 1.3.4 1.4 第二部分 2.1 2.2
语义之间关系的基本理解··················································································· 4 关系之间的推导··································································································· 5 调节控制关系(the regulates relation)及其推导··················································· 6 本体论的组织结构······························································································· 7
)的建立 1.1 基因本体论(gene ontology ontology)
现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。 这种情况归结为生物学 上定义混乱的原因,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样。 不 光是精确的计算机难以搜寻到这些 随时间和人为多重因素而随机改变的定义,即使是完全 由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点, 你 可能想找到所有的和细菌蛋白质合成相关的基因产物, 特别是那些和人体中蛋白质合成组分 显著不同的。 但如果一个数据库描述这些基因产物为“翻译类”, 而另一个数据库描述其为“蛋 白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上 相一致的定义。 Gene Ontology 就是为了解决上述问题,使各种数据库中基因产物功能描述相一致而发 起的一个项目。 这个项目最初是由 1988 年对三个模式生物数据库的整合开始: the FlyBase (果 蝇数据库 Drosophila),the Saccharomyces Genome Database (酵母基因组数据库 SGD) 和 the Mouse Genome Informatics (小鼠基因组数据库 MGI)。从那开始,GO 不断发展扩大,现在已 是包含数十个动物、植物、微生物的数据库(详见 GO Consortium Page )。 GO 开发了具有三级结构的语义词汇标准 (Ontologies) ,根据基因产物的相关生物学途 径、细胞学组件以及分子功能而分别给予定义,与具体物种无关。GO 的工作大致可分为三 个部分:第一,给予并维持语义(terms);第二,将位于数据库当中的基因、基因产物与 GO 本体论语言当中的语义(terms)进行关联,形成网络;第三,开发相关工具,使本体论标准语 言的产生和维持更为便捷。 GO 的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高
下面,将进一步的分别说明 GO 的具体定义情况。 细胞组件 即细胞中的位置,指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核或核 糖体,蛋白酶体等)。 分子功能 分子功能描述在分子生物学上的活性,如催化活性或结合活性。GO 分子功能用来定义 功能而不是整体分子, 而且不特异性地指出这些功能具体的时空信息。 分子功能大部分指的
2.2.3 根据语义检索······································································································· 22 2.2.4 根据基因产物检索····························································································· 25
GO 数据库使用指南
Version No. 2010.09.03
(内部资料
仅供参考)
目
录
目
录
第一部分 1.1 1.2 1.3
GO 是什么?················································································································ 2 基因本体论(gene ontology)的建立·················································································2 本体论(The ontologies)简介····························································································3 本体论语义之间的关系及其组织结构·········································································· 4
注:基因产物和其生物功能常常被我们混淆。例如, “乙醇脱氢酶”既可以指放在 Eppendorf 试管里的 基因产物,也表明了它的功能。但是这之间其实是存在差别的:一个基因产物可以拥有多种分子功能,多 种基因产物也可以行使同一种分子功能。比如还是“乙醇脱氢酶” ,其实多种基因产物都具有这种功能, 而 并不是所有的这些酶都是由乙醇脱氢酶基因编码的。一个基因产物可以同时具有 “乙醇脱氢酶”和“乙醛 歧化酶”两种功能,甚至更多。所以,在 GO 中,很重要的一点在于,当使用“乙醇脱氢酶活性”这种术 语时,所指的是功能,并不是基因产物。