当前位置:
文档之家› 基因本体数据库与GO富集分析
基因本体数据库与GO富集分析
注释系统中每一个结点都是基因或蛋白的一种描述,结点之间保持严格的关 系,即“is a”或“part of”。
(细胞质)
(细胞器)
(线粒体)
(细胞器膜)
is a· is a → is a
(线粒体)
(胞内细胞器)
part of·part of → part of
(线粒体)
(细胞质)
(细胞器)
part of·is a → part of 与is a·part of → part of
谢 谢
基因功能富集分析
P值的生物学意义决定于所提交的基因列表,例如, 如果列表中均为上调基因而某功能条目显著,则认为 此实验因素作用可能使这个功能激活;相反如果为下 调基因并且条目显著,则认为实验因素作用可能使这 个功能抑制。
基因功能富集分析
控制FDR(False Discovery Rate)值:在进行差异基因挑选时,整个 差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增 大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。 FDR用比较温和的方法对p值进行了校正,在假阳性和假阴性间达到平衡, 将假/真阳性比例控制到一定范围之内。
提供目前可获得的基因或基因产物的功能。
涵盖了基因的细胞组分(cellular component)、分子功能 (molecular function)、生物学过程(biological process)。
GO注释是对某个特定基因功能的描述,每一条 GO注释,由一个基因和相应的GO term组成。
基因本体的基本单位是term,每个term都对应 一个属性。
从整体上来看GO注释系统是一个“有向无环 图”。
GO term之间关系表述
is a 子节点所描述的功能、细胞组分或生物过程从始至终都是 属于父节点的 part of 只有其中一部分属于父节点的 has part 与part of互补 从父节点的角度出发 regulates negatively regulates 负向调节 positively regulates 正向调节 箭头代表关系的方向 虚线表示推断的关系 实线表示注释的关 系
基因本体数据库
产生的背景与意义
随着后基因组时代研究的不断深入,基因组学的研究任务已由最 开始的基因组序列识别,渐渐转移到在整体分子水平对功能进行 研究。一个重要标志是功能基因组学的不断发展。
功能基因组学的主要任务之一是进行基因组功能注释(genome annotation),对进一步识别基因,研究基因的表达调控机制, 研究基因在生物体代谢途径中的地位,分析基因、基因产物之间 的相互作用关系,预测和发现蛋白质功能,揭示生命的起源和进 化等具有重 terms 之间的关系 /amigo www.ebi.ac.bk/QuickGO
基因功能富集分析
基因本体富集分析:一组基因直接注释的结果是得到大量的功能 结点。这些功能具有概念上的交叠现象,导致分析结果冗余,不 利于进一步的精细分析;鉴定功能一致的基因群体,使上千个分 子减少为较小数量的生物学功能,更容易理解一组分子改变的意 义。 富集分析方法通常是分析一组基因在某个功能结点上是否过出现。 这个原理可以由单个基因的注释分析发展到大基因集合的成组分 析。
GO的目的
解决生物学定义混乱的现象,使各 种数据库中基因产物功能描述相一 致
允许在各种水平查询基因产物的特 性
使得在不同生物数据库中的查询具 有极高的一致性
旨在建立一套适用于各种物种的, 对基因和蛋白质功能进行限定和描 述的,并能随着研究不断深入而更 新的语义词汇标准。
定义
基因本体数据库是GO组织(Gene Ontology Consortium) 在2000年构建的一个结构化的标准生物学模型,目的是建立基 因及其产物知识的标准词汇体系。