当前位置:文档之家› 第五章蛋白质分析及预测方法新

第五章蛋白质分析及预测方法新

结构预测依赖于每个氨基酸残基及其周围的残 基所携带的二级结构信息。
为了避免需要大量的实验数据,GOR方法将信 息函数分为多项加和形式,并且只考虑双残基 及单残基所携带的信息:一个残基携带其自身 的二级结构信息,同时携带有另一个残基的二 级结构信息,包含不依赖于另一残基类型的和 依赖于另一残基类型的信息。
三、酶切及断裂位点
ExPASy的PeptideCutter (/tools/peptidecutter /)工具可预测蛋白质序列在特定蛋白酶或 化学试剂作用下的断裂位点
PeptideMass (/tools/peptidemass.html)是ExPASy中另一个分析内切产 物的工具,它可计算蛋白质经特定酶水解 得到的肽片段的分子量、理论等电点等。
用ProtScale中Kyte & Doolittle 算法分析人 NPD1蛋白结果示例
ProtScale除能分析蛋白质的亲/疏水性外,还能 计算蛋白质的分子量、极性,预测二级结构等, 共包括了50余种不同的算法。
除ProtScale外,蛋白质序列统计分析 (Statistical Analysis of Protein Sequences, SAPS)是另一个计算蛋白质序列性质的在线工 具(http://www.isrec.isbsib.ch/software/SAPS_form.html),它可给出 查询序列的氨基酸组成、电荷分布(包括正/负 电荷聚集区的位置,强带电或不带电区段,电 荷分布连续性和模式等)、高疏水性和跨膜区 段、重复结构及周期性分析等属性。
(http://npsa-pbil.ibcp.fr/cgibin/npsa_automat.pl?page=/NPSA/npsa_seccons. html)服务,其二级结构预测可由用户从SOPM、 HNN、DPM、DSC、GOR、PHD、PREDATOR、 SIMPA96等12种方法中任选几种进行预测,然后根 据预测结果汇集整理成一个“一致的结果”
常采用参数Q3:Q3=(Pα+Pβ+Pcoil)/T, 其中Pα、Pβ、Pcoil分别代表预测α螺旋、β 折叠和无规则卷曲正确的氨基酸残基数,T 为总氨基酸残基数。
亦有人建议用不同二级结构预测的相关系数
Ci来评估。如Cα表示α螺旋预测相关系数:
C (PN UO) (N U)(N O)(P U)(P O)
北京大学生物信息中心有该网站的镜像: /mirror/predictpro tein/。
3.GOR:网址为
http://molbioቤተ መጻሕፍቲ ባይዱ/compute/GO R.html 。
4、综合分析:位于法国里昂的CNRS(Centre National de la Recherche Scientifique)提供NPS@
第八章 蛋白质分析及预测方法
一、分子量及等电点
蛋白质的一些基本性质可直接分析其一级序 列而获得,如蛋白质的氨基酸组成、分子质 量、等电点(pI)、亲水性和疏水性、信号肽、 跨膜区等。
蛋白质的分子量和等电点可用一些本地化的 软件如MacVector、OMIGA、DNAMAN、 BioEdit等分析计算
三、二级结构预测的准确度 总的来讲,单序列的预测准确度在60%左右, 应用多重序列对比信息的二级结构预测准确 度在65%~85%之间。
从1994年起每两年国际上都要举行一届关于 蛋白质结构预测进展方面的评估(critical assessment of protein structure prediction, CASP)
(四)、基于多重序列比对的二级结构预测
基于单个序列的二级结构预测方法经过近三十年的发 展,虽然可以利用的实验数据有了数十倍的增长,但 预测准确度提高得不明显。在单个残基基础上的预测 准确度在58%左右。
近年来将同源序列的信息引入二级结构预测中,可以 将二级结构预测的准确度提高到70%左右。基于同源 序列对比的二级结构预测方法有两类:一类是自动程 序算法,如改进的GOR方法及PHD;另一类是专家参 与的多重序列对比,然后进行二级结构预测。随着多 重序列搜寻方法PSI-BLAST的发展,基于PSI-BLAST 多重序列比对的二级结构预测方法PSIPRED也见诸报 道。PSIPRED利用PHD的算法,将PSI-BLAST产生的 多重序列比对用于训练及预测,使预测准确度从70% 提高到77%。
Cuff J. A. and Barton G.(1999) Jones, D. T. (1999)
准确性
作者评测:Q3=57% CASP2:Q3=55.4%(41.9-62.5)
作者评测:Q3=63%
作者评测:Q3=70.1% CASP2:Q3=69.5% [57.3-87.2]
作者评测:Q3=75%
第二节 蛋白质二级结构预测
预测方法可以分为三类: 统计/经验算法,其中最为著名的有基于经
验统计规则的Chou-Fasman方法及基于信息 论算法的GOR方法;
物理—化学方法,基于对于蛋白质结构的物 理及化学原理的预测,如Lim方法;
机器学习方法,致力于将前两种方法的优点 结合起来。
一、二级结构预测方法:
30℃ 0.001 0.01 SP S P
97 66
45
30 20
Effect of temperature on the expression of PG1605 gene
Compute pI/Mw对pI的确定基于早期Bjellqvist等的 实验,该实验根据多肽在含高浓度(9.2~9.8mol/L) 尿素缓冲液中,酸性pH梯度(pH4.5至pH7.5)电 泳中的迁移率来计算其pK值和pI值,然后根据氨基 酸序列和pI关系来预测,因此在计算碱性蛋白质的 理论pI值时可能不准确。
ProtParam可计算蛋白质分子量、理论等电点、氨 基酸组成、各原子组成、在280nm附近的吸光系数、 估计半衰期、稳定指数等,但如蛋白质中含翻译后 修饰过的氨基酸残基,则不计算在内。
二、蛋白质辨识
(一)、基于组成的蛋白质辨识
可利用ExPASy的AA CompIdent (/tools/aacomp/)去检索
(一)、Chou-Fasman方法 Chou-Fasman方法曾经是现在仍然是最为普
遍应用的方法。 其基本出发点在于对于蛋白质20种不同的氨
基酸残基在不同的二级结构中出现的几率进 行统计分析得出在不同二级结构中出现的倾 向性。利用这种倾向性,加之周围残基的信 息,在一定规则的指导下就可以进行预测了。
β折叠规则 相邻5个残基中若有3个倾向于形 成β折叠,则认为是折叠核,折叠核向两端延 伸直至4个残基的平均折叠倾向性因子Pβ<1.0。 若延伸后的片断Pβ>1.05,则预测为β折叠。
转角规则 四肽片断,若位置专一性转角形成 几率f i+1·f i+2·f i+3·f i+4> 0.75×10-4 ,Pt > 1.0,并大于Pα和Pβ,则预测为转角。
预测规则简述如下:
α螺旋规则: 沿着蛋白质序列寻找α螺旋核,相 邻6个残基中若有至少4个残基倾向于形成α螺旋, 则认为是螺旋核。然后螺旋核向两端延伸,直至 四肽片断的α螺旋倾向性因子的平均值Pα<1.0为 止。此外,Pro不容许在螺旋内部出现,但可出 现于C末端以及N端的前三位,这也用于终止螺 旋的延伸。最后,将螺旋两端各去掉3个残基, 剩余部分若长于6个残基,而且Pα>1.03,则 预测为螺旋。
四、疏水性
在线可用ExPASy的 ProtScale(/cgibin/protscale.pl )程序。疏水性预测的方法 依赖于疏水性的衡量尺度,这里每个氨基 酸根据其一系列的物理特性(例如,溶解 性、跨越水-汽相时产生的自由能等), 被赋予一个数值以代表其疏水性。
应用蛋白酶将胶上或膜上分离出的蛋白断裂成肽 片段,通过MALDI-MS或ESI-MS得到肽质指纹图 谱,搜索数据库,可对蛋白质进行鉴定。常用的 在 线 肽 质 指 纹 图 谱 分 析 工 具 有 ExPASy 的 PeptIdent (/tools/peptident.html)
二、二级结构在线预测
1.PSIPRED:基于多重序列比对算法,服 务器网址为
/psipred/。
2.PredictProtein: 基于PHD算法,网址: /predictprotein
在线可通过ExPASy的Compute pI/Mw (/tools/pi_tool.html) 或ProtParam(/tools/ protparam.html)计算。
Temperature IPTG(mM)
M
22℃ 0.001 0.1 S PS P
(三)、神经网络方法
神经网络学习系统是一组有相互联系强度的 非线性的单元。用于二级结构预测的神经网 络多为误差回传式反馈网络。用于二级结构 预测的神经网络方法有许多种,其中代表性 的为最早发表的Qian和Sejnowski方法以及广 泛应用的PHD方法。相对而言神经网络方法 便于应用,有较高的预测准确度。最大的缺 点是没有明确的物理化学意义。
其中,Pα为预测是α螺旋且预测正确的残基数 (positive),Nα为非α螺旋预测正确残基数 ( negative ) , Oα 为 非 α 螺 旋 却 被 错 误 预 测 为α螺旋的残基数(false positives),Uα为 是α螺旋却未预测出的残基数(miss)。
算法 GOR1
GOR3 DSC
作者 Garnier J, Osguthorpe DJ, Robson B
(1978) Gibrat JF, Robson B, Garnier J (1987)
King RD, Sternberg MJE (1996)
PREDATOR Yi & Lander
NNSSP
Frishman D, Argos P (1996) Yi TM, and Lander S (1993) Salamov AA, Solovyev VV (1995)
相关主题