蛋白质结构与功能实验课
也可用TMHMM分预测P14136是否存在跨膜区 http://www.cbs.dtu.dk/services/TMHMM-2.0/
P14136:GFAP
P14136预测结果
牛视紫红质蛋白(SwissProt/TrEMBL AC:P02699)存在7 个跨膜区,其跨膜区预测位置和 TMpred预测结果基本吻合。
蛋白质疏水区域可作为评判潜在跨膜区的依据,但预 测得到的疏水区并不一定就是跨膜区域。对于多次 的跨膜区,则以亲水残基区和较长的疏水残基区交 替出现;膜内外交界处多出现色氨酸,酪氨酸和苯 丙氨酸;胞外端末端多出现Asp、Ser、Pro;胞内末 端多出现Lys和Arg。
TMpred为EMBnet 开发的在线分析蛋白质跨膜区软 件. /software/TMPRED_fo rm.html 它基于对TMbase数据库的统计分析来预测蛋白质 跨膜区和跨膜方向。
UniProKB界面简介
实例: 对GFAP人胶质纤维酸性蛋白 (glial fibrillary acidic protein) 进 行结构与功能预测
网址:
点击Resource A...Z
点击UniPro
或直接点UniPro
输入 GFAP
选择物种:人
点击进入
命名与起源
或直接输入 /protscale/
GFAP亲疏水性分布图,横坐标为序列位置,纵坐标为氨基酸的标度值。 Hphob.kyte&Doolittle 标度(default)定义疏水性氨基酸较高的打分 值(>0值表示疏水性,<0值表示亲水性)构域与功能分析
结构域(domain)是蛋白质序列功能、结构和进化的
单元,通常由50-300个氨基酸组成,有空间构象特异 性。
4.1 Pfam是大规模收集蛋白质家族的数据库,网址 为
4.2 Prosite(/)
P14136无代谢通路注释
牛视紫红质蛋白(Unipro:P02699)代谢通路图
二、蛋白质一级结构分析
2.1 Blast :序列比对,得到同源蛋白
BLAST是基本局部比对搜索工具(basic local
alignment search tool)的缩写。
是对生物不同蛋白质的氨基酸序列或不同的基因的DNA
序列极性比对。并从相应数据库中找到相同或相似序 列。
同源性(homology): 指从一些数据中推断出的两个基因或蛋白质序列具而共同 祖先的结论,属于质的判断。说A和B的同源性为80%都是 不科学的。 相似性(similarity): 是指一种很直接的数量关系。比如说,A序列和B序列的 相似性是80%,或者4/5。 序列的相似性和序列的同源性有一定的关系,一般来说序 列间的相似性越高的话,它们是同源序列的可能性就更高, 所以经常可以通过序列的相似性来推测序列是否同源。 正因为存在这样的关系,很多时候对序列的相似性和同源 性就没有做很明显的区分,造成经常等价混用两个名词。 所以有出现A序列和B序列的同源性为80%一说。
蛋白质属性
OMIM链接
注释
序列相似性家族
细胞组分 编码序列多样性 翻译后修饰
完整的GO分析
基因本体(Gene Ontology,GO)数据库旨在建立注
释基因和蛋白质知识的标准词汇体系,涵盖基因细胞 组分(cellular component)、分子功能(molecular function)、生物学过程(biological process)3方面 信息。
建模部分结果
Anolea:以原子经验平均力势计算 每个氨基酸和周围环境的相互作用 能量,能量越高越不稳定(为正值, 红色表示),反之亦然(为负值, 绿色表示)。 Gromos:反映氨基酸位点的能量, 同样低能量对结构稳定性有利。
模板搜索结果:同源建模核心是参考模板蛋白的结 构信息来构建未知蛋白的结构,合适的模板增加预 测结构的可靠性
预测结果
三、蛋白质二级结构分析
蛋白质二级结构是指氨基酸残基形成的α -helix、β -
sheet、coil和motif等组件
常用软件:PSIPRED
/psipred/
KEGG数据库中对P14136 motif 分析 (可以直接从unipro找kegg链接)
也可以直接输入 /blast/
2.2 ProtParam:蛋白质理化性质分析
ProParam是计算氨基酸理化参数常用的工具,提供计
算蛋白质的分子量、理论等电点、氨基酸组成、原子 组成、消光系数(extinction coefficient)、半衰期、 不稳定系数、脂肪系数和总平均疏水性(GRAVY)等。
总结:GFAP为一中等分子量的酸性蛋白,分子中含有较多的Glu,每个 分子大约带9个负电荷。该蛋白无跨膜区域,并且亲水,不是膜蛋白。 GFAP是一种结构蛋白,属于IF家族,主要参与中间纤维的构成,在神 经元内环境的维持和血脑屏障中起着重要作用。到目前为止,该蛋白 的空间结构尚未完全解析出来,有待于进一步研究。
Protsite数据库是基于对蛋白质家族中同源序列多重序列
比对得到的保守性区域,这样区域通常与生物学功能有关, 例如酶的活性位点、配体或金属结合位点等。 Prosite数据库实际上是蛋白质序列功能位点数据库。通过 对Prosite数据库的搜索,可判断该序列包含什么样的功能 位点,从而推测其可能属于哪一个蛋白质家族。
TMpred分析预测结果
SignalP:预测蛋白质序列中信号肽的剪切位点 http://www.cbs.dtu.dk/services/SignalP/
信号肽作用:引导新合成的蛋白质进入内质网腔.而
信号肽序列则在信号肽酶的作用下被切除 。 信号肽结构:信号肽位于分泌蛋白的N端。一般由15~ 30个氨基酸组成。包括三个区:一个带正电的N末端, 称为碱性氨基末端;一个中间疏水序列.以中性氨基 酸为主,它是信号肽的主要功能区;一个较长的带负 电荷的C末端,含小分子氨基酸,是信号序列切割位 点.也称加工区。 SignalP的功能是预测给定的氨基酸序列中是否存在潜 在的信号肽剪切位点及其所在,原核生物和真核生物 都可以进行预测。
ISOFORM 比对信息
序列注释(特征)
多态性,SNP位点
三维结构分析
蛋白与蛋白相互作用数据库
翻译后修饰数据库
KEGG日本京都基因和基因组百科全书
全球影响力最大的代谢数据库之一,它的生物学途径 (pathway)数据库有细分成代谢(metabolism)、遗 传信息处理(genetic information processing)、环境 信息处理(environmental information processing)细 胞代谢(cellular process)和人类疾病(human disease) 5个方面
理论模式 [IV]-{K}-[TACI]-Y-[RKH]-{E}-[LM]-L-[DE] I - A -T -Y- R - K – L -L- E 实际序列 Examples : [AC]-x-V-x(4)-{ED} This pattern is translated as: [Ala or Cys]-any-Valany-any-any-any-{any but Glu or Asp}
消光系数—反映了蛋白在特定波长下吸收可见光或不
可见光的能力,可用来测蛋白浓度 不稳定系数—预测对应蛋白质在试验中稳定性。 小于40时,预测蛋白稳定 大于40时,预测蛋白不稳定 脂肪系数—计算球状蛋白脂肪族氨基酸侧链所占相对 体积,反映了蛋白质的热稳定性。
或直接输入 /protparam/
蛋白质的疏水性预测可以根据gravy值来预测。GRAVY值的范围在2 与2之间,正值表明此蛋白为疏水性蛋白,负值表明为亲水蛋白。疏水性 信息可被用于跨膜螺旋的预测,
2.3 ProtScale 蛋白质亲疏水性分析
蛋白质亲疏水性氨基酸的组成是蛋白质折叠的主要驱动力。 蛋白质折叠时会形成疏水内核和亲水表面,同时在潜在跨 膜区出现高疏水值区域,据此可以测定跨膜螺旋等二级结 构和蛋白质表面氨基酸的分布。
5、蛋白质三维结构分析 /
同源建模是蛋白质三维预测的主要方法。 对蛋白质数据库PDB分析可以得到这样的结论:任 何一对蛋白质,如果两者的序列等同部分超过30%
(序列比对长度大于80),则它们具有相似的三 维结构,即两个蛋白质的基本折叠相同,只是在 非螺旋和非折叠区域的一些细节部分有所不同。 这是同源建模方法预测蛋白质结构方面成功的保 证。
作业
MELAALCRWGLLLALLPPGAASTQVCTGTDMKLRLPASPETHLDMLRHLYQGCQVVQGNL ELTYLPTNASLSFLQDIQEVQGYVLIAHNQVRQVPLQRLRIVRGTQLFEDNYALAVLDNG DPLNNTTPVTGASPGGLRELQLRSLTEILKGGVLIQRNPQLCYQDTILWKDIFHKNNQLA LTLIDTNRSRACHPCSPMCKGSRCWGESSEDCQSLTRTVCAGGCARCKGPLPTDCCHEQC AAGCTGPKHSDCLACLHFNHSGICELHCPALVTYNTDTFESMPNPEGRYTFGASCVTACP YNYLSTDVGSCTLVCPLHNQEVTAEDGTQRCEKCSKPCARVCYGLGMEHLREVRAVTSAN IQEFAGCKKIFGSLAFLPESFDGDPASNTAPLQPEQLQVFETLEEITGYLYISAWPDSLP DLSVFQNLQVIRGRILHNGAYSLTLQGLGISWLGLRSLRELGSGLALIHHNTHLCFVHTV PWDQLFRNPHQALLHTANRPEDECVGEGLACHQLCARGHCWGPGPTQCVNCSQFLRGQEC VEECRVLQGLPREYVNARHCLPCHPECQPQNGSVTCFGPEADQCVACAHYKDPPFCVARC PSGVKPDLSYMPIWKFPDEEGACQPCPINCTHSCVDLDDKGCPAEQRASPLTSIISAVVG ILLVVVLGVVFGILIKRRQQKIRKYTMRRLLQETELVEPLTPSGAMPNQAQMRILKETEL RKVKVLGSGAFGTVYKGIWIPDGENVKIPVAIKVLRENTSPKANKEILDEAYVMAGVGSP YVSRLLGICLTSTVQLVTQLMPYGCLLDHVRENRGRLGSQDLLNWCMQIAKGMSYLEDVR LVHRDLAARNVLVKSPNHVKITDFGLARLLDIDETEYHADGGKVPIKWMALESILRRRFT HQSDVWSYGVTVWELMTFGAKPYDGIPAREIPDLLEKGERLPQPPICTIDVYMIMVKCWM IDSECRPRFRELVSEFSRMARDPQRFVVIQNEDLGPASPLDSTFYRSLLEDDDMGDLVDA EEYLVPQQGFFCPDPAPGAGGMVHHRHRSSSTRSGGGDLTLGLEPSEEEAPRSPLAPSEG AGSDVFDGDLGMGAAKGLQSLPTHDPSPLQRYSEDPTVPLPSETDGYVAPLTCSPQPEYV NQPDVRPQPPSPREGPLPAARPAGATLERPKTLSPGKNGVVKDVFAFGGAVENPEYLTPQ GGAAPQPHPPPAFSPAFDNLYYWDQDPPERGAPPSTFKGTPTAENPEYLGLDVPV