蛋白质相互作用数据库和分析方法1. 蛋白质相互作用的数据库 蛋白质相互作用数据库见下表所示: 数据库名 说明网址BIND 生物分子相互作用数据库http://bind.ca/DIP 蛋白质相互作用数据库/IntAct 蛋白质相互作用数据库/intact/index.html InterDom 结构域相互作用数据库.sg/ MINT 生物分子相互作用数据库http://mint.bio.uniroma2.it/mint/ STRING 蛋白质相互作用网络数据库http://string.embl.de/ HPRD 人类蛋白质参考数据库/HPID 人类蛋白质相互作用数据库http://wilab.inha.ac.kr/hpid/ MPPI 脯乳动物相互作用数据库http://fantom21.gsc.riken.go.jp/PPI/ biogrid蛋白和遗传相互作用数据,主要来自于酵母、线虫、果蝇和人 /PDZbase 包含PDZ 结构域的蛋白质相互作用数据库 /services/pdz/start Reactome生物学通路的辅助知识库/2. 蛋白质相互作用的预测方法蛋白质相互作用的预测方法很非常多,以下作了简单的介绍1) 系统发生谱这个方法基于如下假定:功能相关的(functionally related)基因,在一组完全测序的基因组中预期同时存在或不存在,这种存在或不存在的模式(pattern)被称作系统发育谱;如果两个基因,它们的序列没有同源性,但它们的系统发育谱一致或相似.可以推断它们在功能上是相关的。
2)基因邻接这个方法的依据是,在细菌基因组中,功能相关的基因紧密连锁地存在于一个特定区域,构成一个操纵子,这种基因之间的邻接关系,在物种演化过程种具有保守性,可以作为基因产物之间功能关系的指示。
这个方法似乎只能适用于进化早期的结构简单的微生物。
所以在人的蛋白质相互作用预测时不采用这个方法。
3)基因融合事件这个方法基于如下假定:由于在物种演化过程中发生了基因融合事件,一个物种的两个(或多个)相互作用的蛋白,在另一个物种中融合成为一条多肽链, 因而基因融合事件可以作为蛋白质功能相关或相互作用的指示。
4)镜像树这个方法的思想是,功能相关的蛋白质或同一个蛋白的域之间,受功能约束,其进化过程应该保持一致, 即呈现共进化(CO—evolution)特征,通过构建和比较它们的系统发育树,如果发现树的拓扑结构显示相似性,这种相似的树被称作镜像树,那么,可以推测建树基因的功能是相关的。
5)突变关联物理上相互接触的蛋白质, 比如处在同一个结构复合物中的蛋白质,其中一个蛋白质在进化过程中累计的残基变化,通过在另一个蛋白质中发生相应的变化予以补偿,这种现象被称作关联突变。
6)序列信号关联通过检查实验上已经证实的相互作用蛋白质对,发现序列特征信号(sequence-signatures)在不同对的相互作用蛋白中重复地出现,这一现象被称作序列信号关联。
利用序列域信号关联作为相互作用蛋白质的识别指示,可以预测未知功能蛋白与已知蛋白的相互作用,减少直接实验的搜索空间。
7)保守的蛋白间相互作用相互作用的蛋白质在物种演化过程中具有保守性,因此,可以通过在一个物种中建立的蛋白质相互作用网络,预测其它物种的蛋白质间相互作用。
这是后基因组时代产生的一个分子进化概念,使人们联想到直系同源基因(orthologs)和平行同源基因(paralogs)两个概念。
Walhout首先提出了”interologs”这个新概念,后由Matthews等利用酵母双杂交法分析了1195个酿酒酵母相互作用蛋白在线虫(C.elegans)中的保守性,获得了16%-31%线虫保守相互作用蛋白,它们主要集中在核心代谢过程(core metabolicprocesses)并预期随着亲缘关系的远近,保守性作相应变化。
8)同源结构复合物设想三维结构已知的蛋白质复合物,各自的同家族成员以同样的方式发生相互作用.9)进化速率关联蛋白质的进化速率由这个蛋白质同其它蛋白质发生相互作用的数量决定,并呈负相关,即相互作用的数量越多进化速率越低,而不是通常设想的蛋白质的进化速率由这个蛋白质对机体的重要性决定,这是一个极重要的概念。
Fraser等13Ol利用一组实验上证实的酵母相互作用蛋白,量化分析了进化速率、适合度(fitness)和序列共进化(sequence CO —evolution)之间的关系;统计分析显示,在酵母蛋白质相互作用网络中,连接点越多的蛋白质进化速率进化越低,可能的原因是,这些蛋白质需要与更多的相互作用伴体(partner)共进化。
10)共鸣识别模型MRRM预测蛋白质相互作用从蛋白质一级结构预测蛋白质相互作用,它假设生物分子(包括蛋白质和DNA)之间的相互作用是通过共鸣能量的传递来实现的,RRM恰当地引入了一些蛋白质的物理参数,并且运用了信号分析方法(Digital Signal Analysis,DSP)使得对于蛋白质和基因的分析脱离了局部性。
11)通过Domain相互作用来预测蛋白质相互作用Domain是蛋白质最小的功能单元,它们之间的相互作用一定程度上就决定了蛋白质之间的相互作用。
按照这个方法将所有的氨基酸序列进行聚类,如果类与类之间的相互作用的序列对的个数超过了一定阈值,则表示与两个类的代表序列同源的蛋白质之间都可能会发生相互作用。
12)根据蛋白结构来预测蛋白相互作用Lappe等人认为,虽然蛋白质之间的相互作用并不能直接用作预测,但是在结构上相似的蛋白质将有可能具有相似的功能,至少会给出一定的功能提示。
分类的原则可按照SCOP给出的层次进行,分类方法是将已知序列的蛋白质相互作用对分别与SCOP的典型结构进行匹配,使之对应到每一个类中。
预测已知与其他蛋白相互作用关系的蛋白的序列结构可以列出该蛋白结构组成的最大可能情况。
3.蛋白质相互作用数据分析3.1蛋白质相互作用可靠性评价对于实验数据而言,由于大规模蛋白质相互作用实验如酵母双杂交实验存在较高的假阳性,所以一般会对产生的数据做一个评价。
对于预测的数据更需要一个打分系统进行评估。
常用的评估打分方法有下以几种:1)基于拓扑结构的证据该方法通过其他模式生物酵母、线虫、果蝇、小鼠等的实验蛋白质相互作用,通过基因ortholog关系预测到所分析物种的蛋白质相互作用,然后与分析的网络合并,对于重叠的或者三或四个蛋白相互作用回形模体中的相互作用给予高分。
这个方法对于数据量过于庞大的网络数据因为大部分都会是三或四个蛋白相互作用回形模体,以致于效果不太好。
2)基于GO term的证据蛋白质相似的细胞功能和定位与蛋白质相互作用成簇是相关的,在蛋白质相互作用对上如果两个蛋白质的功能在同一个GO term上,认为该蛋白质相互作用对有更好的可靠性。
3)共表达数据参考证据如果有实验证据证明两个蛋白质共表达,那么他们之间相互作用的可能性就高。
4)贝叶斯理论的应用基于贝叶斯理论收集一个正数据集和一个负数据集通过技术对所选择的方法进行评估。
3.2蛋白质相互作用网络分析1)度分布和Hub蛋白度是指顶点所连接的边的数量。
计算蛋白质相互作用网络上所有蛋白质的度,可以作一个度分布,如果度分布服从幂率的网络称为无尺度(scale-free)网络。
以此可以判断网络是随机网还是无尺度(scale-free)网络,见下图。
对于无尺度网络大多数顶点的度都是低的,只有少数顶点的度较高,这些少数顶点在蛋白质相互作用网络上就是Hub蛋白。
2)最短路计算,平均路长,路分布网络中两顶点间的距离用最短路来度量,即从一个顶点到另一个顶点所需要通过的最少边的数目。
平均路长指网络中所有顶点对间最短路的平均值。
路分布指对所有路长做一个分布,见下图。
3)聚集系数及其分布聚集系数描述其邻接点之间的连接程度,即网络的局部集团化程度,其数学定义如下:其d(v)是顶点v的度, |N(v)|代表顶点v的d(v)个邻接点之间的真接连线的数目。
CC (v)的值介于0-1之间。
由此定义可知,若v的任意两个邻居间都有连线,CC(v)等于1,若v的所有邻居之间都无连线,CC(V)等于0。
聚集系数分布见下图:5)拓扑系数的度分布拓扑系数(topological coefficients)的数学定义是TCp=average(J(p, j)/kp , 其中J(p, j)是指顶点p和j 之间的所有顶点数,kp是指顶点p的度。
拓扑系数的度分布参考下图:除了以上所说的之外,蛋白质相互作用网络还可以计算Eigenvector centrality、Center、Barycenter以其模块分析,采用的还是数学方法,这里就不一一介绍了。
4.Pajek的应用介绍4.1 Pajek简要介绍Pajek在斯洛文尼亚语中是蜘蛛的意思,是一个用来做大型网络分析和软件,它运行在window环境下,软件可以在官方网站下载:(http://vlado.fmf.uni-lj.si/pub/networks/pajek/)。
它被应用于与网络相关的各个领域的研究,如社会关系研究、情报分析等。
本文介绍该软件在蛋白质相互作用网络研究中的一些应用。
在官方网站除了pajek主程序之外,还有一些用来做格式转化的小程序,例如txt2pajek, Excel2pajek是非常实用的程序。
Pajek官方网站Pajek具有很强大的网络分析能力,如下图所示,pathway有多种方法去处理一个大型网络,包括了层次化(hierarchy),简约化(reduction), 抽取前后关系(context), 抽取部分网络(cut-out)。
它的主要目标有三个:1)从大网络中抽提有意义的小网络;2)网络的图形化显示;3)实现一系列的大型网络的分析算法。
4.2 Pajek的输入文件Pajek有6种数据对象,如下所示1)Network:主要对象,用来定义顶点和边,输入文件的扩展名为.net。
蛋白质相互作用主要用的就是该数据对象。
2)Partitions: 用来定义每个顶点属于哪一个类别,文件扩展名为.clu。
3)Permutations: 顶点的重新排列,文件扩展名为.per。
4)Clusters: 顶点的子集,文件扩展名为.cls。
5)Hierarchies: 层次结构排列的顶点,文件扩展名为.hie。
6)Vectors: 定义每一个顶点的一些数字化属性,文件扩展名为.vecPajek操作窗口Pajek主窗口 Pajek图形显示窗口菜单 简要说明File 六种数据对象的输入/输出操作Net 对单个网络的操作Nets 两个网络的运算Operations 对网络或者其它数据的操作Transform 依据分类、集聚和向量的网络变换Partition 对分类的操作Partitions 在两个分类上操作Vector 对网络和向量的操作Vectors 对两个向量的操作Permutation 排序相关的操作Cluster 对类进行操作Hierarchy 层次相关的操作Options 对软件的一些设置Draw 画图相关的选项Macro 与宏相关的操作Info 查询信息Tools 调用第三方软件最简单的Pajek network输入文件(1-mode network),如下所示:文件内容() 网络图*Vertices 61 "a"2 "b"3 "c"4 "d"5 "e"6 "f"*Edges1 21 32 3*Arcs4 54 65 6*Vertices 6 表示以下开始在对顶点的定义,总的顶点数是6个。