当前位置:文档之家› go分析===

go分析===

go分析Gene Ontology可分为分子功能(Molecular Function),生物过程(biological process)和细胞组成(cellular component)三个部分。

蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对于到Term,即功能类别或者细胞定位。

功能富集分析: 功能富集需要有一个参考数据集,通过该项分析可以找出在统计上显著富集的GO Term。

该功能或者定位有可能与研究的目前有关。

GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是在GO的第二层次。

此外也有研究都挑选一些Term,而后统计直接对应到该Term的基因或蛋白数。

结果一般以柱状图或者饼图表示。

1.GO分析根据挑选出的差异基因,计算这些差异基因同GO 分类中某(几)个特定的分支的超几何分布关系,GO 分析会对每个有差异基因存在的GO 返回一个p-value,小的p 值表示差异基因在该GO 中出现了富集。

GO 分析对实验结果有提示的作用,通过差异基因的GO 分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。

2.Pathway分析根据挑选出的差异基因,计算这些差异基因同Pathway 的超几何分布关系,Pathway 分析会对每个有差异基因存在的pathway 返回一个p-value,小的p 值表示差异基因在该pathway 中出现了富集。

Pathway 分析对实验结果有提示的作用,通过差异基因的Pathway 分析,可以找到富集差异基因的Pathway 条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。

与GO 分析不同,pathway 分析的结果更显得间接,这是因为,pathway 是蛋白质之间的相互作用,pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起。

而通过芯片结果得到的是编码这些蛋白质的mRNA 表达量的变化。

从mRNA 到蛋白表达还要经过microRNA 调控,翻译调控,翻译后修饰(如糖基化,磷酸化),蛋白运输等一系列的调控过程,mRNA 表达量和蛋白表达量之间往往不具有线性关系,因此mRNA 的改变不一定意味着蛋白表达量的改变。

同时也应注意到,在某些pathway 中,如EGF/EGFR 通路,细胞可以在维持蛋白量不变的情况下,通过蛋白磷酸化程度的改变(调节蛋白的活性)来调节这条通路。

所以芯片数据pathway 分析的结果需要有后期蛋白质功能实验的支持,如Western blot/ELISA,IHC(免疫组化),over expression(过表达),RNAi(RNA 干扰),knockout(基因敲除),trans gene(转基因)等。

3.基因网络分析目的:根据文献,数据库和已知的pathway 寻找基因编码的蛋白之间的相互关系(不超过1000 个基因)。

关于GO分析Gene Ontology现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。

这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。

举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。

但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。

Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。

这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database (小鼠基因组数据库MGD)。

从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。

GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。

这种定义语言具有多重结构,因此在各种程度上都能进行查询。

举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。

这种结构允许在各种水平添加对此基因产物特性的认识。

GO发展了具有三级结构的标准语言(ontologies),如表所示。

根据基因产物的相关分子功能,生物学途径,细胞学组件而给予定义,无物种相关性。

本体论内容分子功能本体论基因产物个体的功能,如与碳水化合物结合或ATP水解酶活性等生物学途径本体论分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等细胞组件本体论亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等基本来说,GO工作可分为三个不同的部分:第一,给予和维持定义;第二,将位于不同数据库中的本体论语言、基因和基因产物进行联系,形成网络;第三,发展相关工具,使本体论的标准语言的产生和维持更为便捷。

本体论(The ontologies)GO 的结构包括三个方面?D?D分子生物学上的功能、生物学途径和在细胞中的组件作用。

当然,它们可能在每一个方面都有多种性质。

如细胞色素C,在分子功能上体现为电子传递活性,在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜上。

下面,将进一步的分别说明GO的具体定义情况。

基因产物基因产物和其生物功能常常被我们混淆。

例如,“乙醇脱氢酶”既可以指放在Eppendorf管里的基因产物,也表明了它的功能。

但是这之间其实是存在差别的?D?D一个基因产物可以拥有多种分子功能,多种基因产物也可以行使同一种分子功能。

比如还是“乙醇脱氢酶”,其实多种基因产物都具有这种功能,而并不是所有的这些酶都是由乙醇脱氢酶基因编码的。

一个基因产物可以同时具有“乙醇脱氢酶”和“乙醛歧化酶”两种功能,甚至更多。

所以,在GO中,很重要的一点在于,当使用“乙醇脱氢酶活性”这种术语时,所指的是功能,并不是基因产物。

许多基因产物会形成复合物后执行功能。

这些“基因复合物”有些非常简单(如血红蛋白由血红蛋白基因产物α-球蛋白、β-球蛋白和小分子的亚血红素组成),有些非常复杂(如核糖体)。

现在,小分子的描述还没有包括在GO中。

在未来,这个问题可望由和现在的Klotho和LIGAND等小分子数据库联合而解决。

分子功能分子功能描述在分子生物学上的活性,如催化活性或结合活性。

GO分子功能定义功能而不是整体分子,而且不特异性地指出这些功能具体的时空信息。

分子功能大部分指的是单个基因产物的功能,还有一小部分是此基因产物形成的复合物的功能。

定义功能的义项包括催化活性、转运活性、结合活性等,更为狭窄的定义包括腺苷酸环化酶活性或钟形受体结合活性等。

生物学途径生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。

举例来说,较为宽泛的是细胞生长和维持、信号传导。

一些更为具体的例子包括嘧啶代谢或α-配糖基的运输等。

一个生物学途径并不是完全和一条生物学通路相等。

因此,GO 并不涉及到通路中复杂的机制和所依赖的因素。

细胞组件细胞中的位置指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核或核糖体,蛋白酶体等)。

GO的形式GO 定义的术语有着直接非循环式(directed acyclic graphs (DAGs)的特点,而并非是传统的等级制(hierarchy)定义方式(随着代数增加,下一级比上一级更为具体)。

举个例子来说,生物学途径中有一个定义是己糖合成,它的上一级为己糖代谢和单糖合成。

当某个基因被注解为“己糖合成活性”后,它自动地获得了己糖代谢和单糖合成地注解。

因为在GO中,每个术语必须遵循“真途径“法则,即如果下一代的术语可以用于描述此基因产物,其上一代术语也可以适用。

GO的注释(Annotation)那么,GO中的术语如何和相对应的基因产物相联系的呢?这是由参与合作的数据库来完成的,它们使用GO的定义方法,对它们所包含的基因产物进行注解,并且提供支持这种注解的参考和证据。

每个基因或基因产物都会有一个列表,列出与之相关的GO术语。

每个数据库都会给出这些基因产物和GO术语的联系数据库,并且也可以在GO的ftp站点上和WEB方式查询到。

并且,GO联合会提供了简化的本体论术语(GO slim),这样,可以在更高级的层面上研究基因组的功能。

比如,粗略地估计哪一部分的基因组与信号传导、代谢合成或复制有关。

GO对基因和蛋白的注释阐明了基因产物和用于定义他们的GO术语之间的关系。

基因产物指一个基因编码的RNA或蛋白产物。

因为一个基因可能编码多个具有很不相同性质的产物,所以GO推荐的注释是针对基因产物的而不是基因的。

一个基因是和所有适用于它的术语联系在一起的。

一个基因产物可以被一种本体论定义的多种分支或多种水平注释。

注释需要反映在正常情况下此基因产物的功能,生物途径,定位等,而并不包括其在突变或病理状态下的情况。

GO联合会的各个数据库成员采用手动或自动的方式生成注释,这两种方式共有的原理是:一.所有的注释都需要有来源,可以是文字、另一个数据库或是计算机分析结果;二.注释必须提供支持这种基因产物和GO术语之间联系的证据。

GO文件格式GO的所有数据都是免费获得的。

GO数据有三种格式:flat(每日更新)、XML(每月更新)和MySQL(每月更新)。

这些数据格式都可以在GO ftp的站点上下载。

XML 和MySQL 文件是被储存于独立的GO数据库中。

如果需要找到与某一个GO术语相关的基因或基因产物,可以找到一个相应表格,搜寻到这种注解的编号,并且可以链接到与之对应的位于不同数据库的基因相关文件。

GO浏览器和修改器(browser and editor)GO 术语和注释使用了多种不同的工具软件,它们都可以在web方式的“GO 浏览器”下“GO software page”中找到。

大多数GO浏览器都是web模式的,允许你直观的看到术语和其相关信息,如定义、同义词和数据库参考等。

有些GO浏览器如AmiGO和QuickGO,可以看到每个术语的注释。

而可下载的DAG-Edit编辑器,一样可以离线地显示注释和所有本体论定义的信息。

对于每一个浏览器来说,都可以选择最适用于你要求的工具软件。

常见的三种浏览器AmiGO from BDGP 在AmiGO中,可以通过查询一个GO术语而得到所有具有这个注释的基因产物,或查询一个基因产物而得到它所有的注释关系。

相关主题