当前位置:文档之家› 蛋白质组学生物信息学分析介绍

蛋白质组学生物信息学分析介绍

生物信息学分析FAQCHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION (3)什么是GO? (3)GO和KEGG注释之前,为什么要先进行序列比对(BLAST)? (3)GO注释的意义? (3)GO和GOslim的区别 (4)为什么有些蛋白没有GO注释信息? (4)为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致? (4)什么是差异蛋白的功能富集分析&WHY? (4)GO注释结果文件解析 (5)Sheet TopBlastHits (5)Sheet protein2GO/protein2GOslim (5)Sheet BP/MF/CC (6)Sheet Level2_BP/Level2_MF/Level2_CC (6)CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION (7)WHY KEGG pathway annotation? (7)KEGG通路注释的方法&流程? (7)KEGG通路注释的意义? (7)为什么有些蛋白没有KEGG通路注释信息? (8)什么是差异蛋白的通路富集分析&WHY? (8)KEGG注释结果文件解析 (8)Sheet query2map (8)Sheet map2query (9)Sheet TopMapStat (9)CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING (10)WHY Feature Selection? (10)聚类分析(Clustering) (10)聚类结果文件解析 (10)CHAPTER FOUR ABOUT PROTEIN-PROTEIN INTERACTION NETWORK (12)蛋白质相互作用网络分析的意义 (12)蛋白质相互作用 VS生物学通路? (12)蛋白质相互作用网络分析结果文件解析 (12)CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION什么是GO?随着多种生物基因组的相继解码,同时大量ESTs以及gene expression profile date的积累,使得annotation的工作量和复杂度大大增加。

然而另一方面,大多数基因在不同真核生物中拥有共同的主要生物功能,通过在某些物种中获得的基因或者蛋白质(shared protein)的生物学信息,可以用以解释其他物种中对应的基因或蛋白(especially in comparative genomics)。

由于这些繁复的功能信息主要是包含在积累的文献之中,如何有效的提取和综合这些信息就是我们面临的核心困难,这也是GO所要着力解决的问题。

通过建立一套具有动态形式的控制字集(controlled vocabulary),来解释真核基因及蛋白在细胞内所扮演的角色,并随着生命科学研究的进步,不断积累和更新。

一个ontology会被一个控制字集来描述并给予一定的名称,通过制定“本体”ontologies并运用统计学方法及自然语言处理技术,可以实现知识管理的专家系统控制。

到目前为止,Gene Ontology (GO) 数据库中有3大独立的ontology:biological process生物过程, molecular function分子功能,cellular component细胞组分。

而这三个ontology下面又可以独立出不同的亚层次,层层向下构成一个ontologies的树型分支结构。

可以说, GO是生物学的统一化工具。

由于GO是一种整合性的分类系统,其下的3类主ontology虽然说是独立的,但是无论是GOC原初的设计还是我们的使用中其实都还是存在一定的流程关系。

一个基因/蛋白质或者一个ontology在注解的过程中,首先是考虑涉及在构成细胞内的组分和元件(cellular component),其次就是此组分/元件在分子水平上所行使的功能(molecular function),最后能够呈现出该分子功能所直接参与的生物过程(biological process)。

由于这是一种存在反馈机制的注释过程,并且整个系统是动态开放实时更新的,因此在某种程度上说它具有纠错的能力。

GO和KEGG注释之前,为什么要先进行序列比对(BLAST)?在进行功能注释和通路注释之前,我们会先将差异蛋白与合适的数据库中的蛋白序列进行比对。

目的一:很多物种目前研究的程度还很有限,关于这些物种的蛋白注释信息还很不完善。

根据相似性原理,具有相似序列的蛋白可能也具有相似的功能,因此,我们可以将BLAST所得的同源蛋白的注释信息转嫁到我们关注的差异蛋白上,来完成对于差异蛋白尤其是研究程度不足的物种的差异蛋白的注释。

目的二:我们在查库过程中,为了得到更多的蛋白质鉴定信息,我们大多使用UniProt数据库(含SwissProt和TrEmbl:SwissProt中的蛋白均经过人工校验,数据可靠性高,注释完整;TrEmbl由基因组序列翻译而来,未经人工校验,注释信息不全)或NCBI Protein数据库(用户可任意提交序列,有冗余,信息不完善,质量很难保证),BLAST一方面可以帮我们提高后续的注释效率,另一方面也可以帮助客户大致了解所鉴定的蛋白可能的名称和功能(尤其对于uncharacterized protein,predicted protein,putative protein 等)。

GO注释的意义?对鉴定到的蛋白或者差异蛋白进行GO注释,其宗旨是为了帮助我们了解这些蛋白。

可能的应用包括:一,例如,某客户对某差异蛋白A非常感兴趣,通过在GO注释的结果中(protein2GO表单)查询蛋白A的注释信息,即可得知蛋白A可能具有的功能、可能参与的生物学过程,以及该蛋白所在的亚细胞定位。

二,根据课题的设计和先验知识,客户可能对某个生物学过程(例如:离子运输)非常感兴趣,可以通过在结果中(BP表单)查询ion transport这个GO term下包含哪些蛋白,并对这些蛋白进行深入研究。

三,客户拿到质谱数据分析结果后,可能对于后续的分析没有方向,这种情况下可以通过在注释结果中查询哪些功能类别包含的蛋白数目较多,可以从这些功能类别和蛋白入手进行重点研究。

四,GO注释可以为课题的设计和实验结果的合理性提供证据。

GO和GOslim的区别GOslim是简化的GO子集,是经过科学家人工筛选的一部分GO term。

简单的说,GOslim去除了一些比较细枝末节的GO term,更着重研究level更高、相互关联的GO term,以及与物种更为相关的GO term(Plant,Candida albicans,Schizosaccharomyces pombe,Yeast,Aspergillus,Metagenomics)。

GOslim对于大规模组学的研究很有意义(比如全基因组、全蛋白组),不至于相关的功能类别太多反而忽略了重点。

通常情况下,我们的分析只针对几十个到几百个差异蛋白进行重点注释,GO和GOslim的结果差别不大。

为什么有些蛋白没有GO注释信息?目前对于蛋白质的功能研究还有限,尤其是非模式生物。

为了提高注释率,根据序列相似的蛋白可能具有相似的功能的原则,我们已经在注释前对目标蛋白序列进行了blast,并利用足够相似的比对序列的注释信息对目标序列进行注释。

此外,我们还采用了查找InterPro数据库中的保守motif的方法对难以注释的蛋白进行注释。

但是仍然有少数蛋白,对于该蛋白,或者同物种中也之相似的蛋白,或者其他物种中的同源蛋白的研究依然十分不足,所以以目前的研究水平难以获得注释信息。

为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致?一个蛋白可能参与多个生物过程(biological process),具有多种分子功能(molecular function),甚至存在于多个细胞组分(cellular component),因此GO Level 2的统计饼图里多个类别的蛋白数相加通常是大于差异蛋白数目的。

此外,少数蛋白由于无法获得注释信息,不参与统计,也是造成统计数目和差异蛋白总数不一致的一个原因。

什么是差异蛋白的功能富集分析&WHY?差异蛋白的功能富集分析是将差异蛋白列表中的蛋白与参考物种的全部蛋白列表或实验鉴定到的所有蛋白列表根据GO 功能的注释结果进行对照比较,通过Fisher精确检验 (Fisher’s Exact Test),得出两者差异的显著性,从而找到这个差异蛋白列表中富集的功能类别条目,找到一个蛋白列表的功能特性。

不同于蛋白功能注释以蛋白为单位进行注释,差异蛋白的功能富集分析以GO功能条目为单位,结果可以直接揭示整个差异蛋白列表中蛋白的整体功能富集特征。

GO注释结果文件解析GO注释的结果文件包括GO.xlsx和GOslim.xlsx两个EXCEL表格,共计15个表单。

GO.xlsx:包含TopBlastHits,protein2GO,BP,MF,CC,Level2_BP,Level2_MF,Level2_CC等8个表单GOslim.xlsx:包含protein2GOslim,BP,MF,CC,Level2_BP,Level2_MF,Level2_CC等7个表单Sheet TopBlastHitsSequence name:目标蛋白IDSequence desc.:根据blast结果,目标蛋白可能的名称和描述Sequence length:目标蛋白序列长度Hit desc.:比对序列的蛋白名称和描述Hit ACC:比对序列的蛋白ID号E-Value:S值可靠性的评价,表明在随机的情况下,其它序列与目标序列相似度大于S值的可能性,越低越好Similarity:Positives/AlignmentScore:表示两序列的同源性,分值越高表明它们之间相似的程度越大Alignment:比对上的蛋白序列部分的长度Positives:相同或理化性质相似的氨基酸数目Sheet protein2GO/protein2GOslimSeqName:目标蛋白IDHit-Desc:比对序列的蛋白名称和描述GO-Group:所注释GO term的类别(P:Biological Process,F:Molecular Function,C:Cellular Component)GO-ID:所注释GO term的IDTerm:所注释GO term的名称Sheet BP/MF/CCLevel :GO term 在ontologies 的树型分支结构中所处的层次,BP 、MF 、CC 最高(Level 1)GO-ID :所注释GO term 的IDTerm :所注释GO term 的名称Type :GO term 所属类别(BP 、MF 、CC )#Seqs :属于该GO term 的蛋白数目Seqs :属于该GO term 的蛋白IDSheet Level2_BP/Level2_MF/Level2_CCData labels :GO term (Level 2), 属于该GO term 的蛋白数目metabolicprocess, 38cellular process, 37signaling, 2 multicellular organismal process,3 developmentalprocess, 3 single-organismprocess, 16 response to stimulus, 4 localization, 7 biological regulation, 8 cellular component organization orbiogenesis, 13 Biological Processprotein binding transcription factoractivity, 1catalyticactivity, 25structuralmoleculeactivity, 8transporter activity, 1 binding, 40 enzymeregulatoractivity, 4 Molecular Function extracellul ar region, 1 cell, 37 membrane , 8 extracellul ar matrix,1 membrane -enclosed lumen, 4 macromole cular complex, 25 organelle, 28 Cellular ComponentCHAPTER TWO ABOUT KEGG PATHWAY ANNOTATIONWHY KEGG pathway annotation?在生物体中,蛋白质并不独立行使其功能,而是不同蛋白质相互协调完成一系列生化反应以行使其生物学功能。

相关主题