当前位置:文档之家› 蛋白质结构预测

蛋白质结构预测

四肽片段Pt的平均值大于100,并且Pt 的均值同时
大于P 的均值以及P 的均值,则可以预测这样连
续的4个残基形成转角。
则可以预测这样连续的4个氨基酸形成转角。
(iv) 重叠规则
• 对于螺旋和折叠的重叠区域,按{Pa}和{P}的 相对大小进行预测
• 若{Pa}大于{P},则预测为螺旋; • 反之,预测为折叠。
一个氨基酸残基的构象倾向性因子定义为 Pi = Ai / Ti (i= ,β,c, t)
式中下标i表示构象态 如螺旋、β折叠、转角、无规卷曲等;
Ti是所有被统计残基处于构象态i的比例; Ai是第A种残基处于构象态i 的比例; Pi大于1.0表示该残基倾向于形成二级结构构象
i,小于1.0则表示倾向于形成其它构象。
I (H ; A) log( fH ,A / fH ',A) log( fH ' / fH ) log((240 / 390) /(150 / 390)) log((1050/1830) /(780 /1830)) 0.7650
(3) Lim方法——立体化学方法
• 氨基酸的理化性质对二级结构影响较大
点模式方法:
• 将20种氨基酸残基分为亲水、疏水以及两性残 基三类
• 用八残基片段表征亲疏水间隔模式
• 以一个二进制位代表一个残基,疏水为1,亲 水为0,共八位。
这样,八残基片段的亲疏水模式可用0255的 数值来表示
• α螺旋的特征模式对应的值为:
9,12,13,17,……,201,205,217,219,237。
• 当发现第i、i+1、i+4位(如7,8,11) 为疏水残基时,这一片段也被预测为α螺 旋。
对于β折叠的形成规律: • 对于β折叠,也存在着一些特征的亲疏水 残基间隔模式,埋藏的β折叠通常由连续 的疏水残基组成,一侧暴露的β折叠则通 常具有亲水-疏水的两残基重复模式。
•原则上,通过在序列中搜寻特殊的亲疏水 残基间隔模式,就可以预测α螺旋和β折叠。
例如:假定数据库中有1830个残基, 780个 处于螺旋态,1050个处于非螺旋态 库中共有390个丙氨酸(A),有240个A处于 螺旋态,其余150个 A 处于非螺旋态。 可得:
fH 780/1830 fH ' 1050/1830 fH,A 240 / 390 fH ',A 150 / 390
– 其主要原因是只利用局部信息
• 第三代方法(考虑多条序列)
– 运用长程信息和蛋白质序列的进化信息 – 准确度有了比较大的提高
2、蛋白质二级结构预测方法
(1) 经验参数法
• 蛋白质二级结构的组成规律性比较强
• 三种基本二级结构平均占氨基酸残基的 85%
• 各种二级结构非均匀地分布在蛋白质中
– 有些蛋白质中含有大量的螺旋
例如:Glu主要出现在螺旋中 Asp和Gly主要分布在转角中 Pro也常出现在转角中,但是绝不会出现在
螺旋中
• 可以根据每种氨基酸残基形成二级结构的倾 向性或者统计规律进行二级结构预测
• 经验参数法由Chou 和Fasman在70年代提 出来
• 是一种基于单个氨基酸残基统计的经验预测 方法。 通过统计分析,获得的每个残基出现 于特定二级结构构象的倾向性因子,进而利 用这些倾向性因子预测蛋白质的二级结构。
– 二级结构预测问题是模式分类问题
– 二级结构预测的目标:
• 判断每一段中心的残基是否处于螺旋、折叠、 转角(或其它状态)之一的二级结构态,即三 态。
基本策略(1) 相似序列→相似结构
QLMGERIRARRKKLK
QLMGAERIRARRKKLK
结构?
基本策略(2) 分类分析
α 螺旋
提取样本
(5) 人工神经网络方法
(6) 综合方法
• 综合方法不仅包括各种预测方法的综合,而 且也包括结构实验结果、序列对比结果、蛋 白质结构分类预测结果等信息的综合。
– 多个程序同时预测,综合评判一致结果 – 序列比对与二级结构预测 – 双重预测
首先预测蛋白质的结构类型 然后再预测二级结构
3、利用进化信息预测蛋白质的二级结构

FUNCTION
寻找一种从蛋白质的氨基酸线性 序列到蛋白质所有原子三维坐 标的一种映射
• 蛋白质结构预测主要有两大类方法:
(1)理论分析方法
– 通过理论计算(如分子力学、分子动力学计算) 进行结构预测。
(2)统计的方法
– 对已知结构的蛋白质进行统计分析,建立序列到 结构的映射模型,进而对未知结构的蛋白质根据 映射模型直接从氨基酸序列预测结构。
• 如血红蛋白和肌红蛋白
– 而一些蛋白质中则不含或者仅含很少的螺旋
• 如铁氧蛋白
– 有些蛋白质的二级结构以折叠为主
• 如免疫球蛋白 例:肽链Ala(A)-Glu(E)-Leu(L)-Met(M) 倾向于形成螺旋
肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成螺旋
• 每种氨基酸出现在各种二级结构中倾向或者 频率是不同的
假设已知二级结构的氨基酸片段 T=STNGIYW
T的二级结构为 CHHHHHT
H代表螺旋, T代表转角, C代表无规卷曲
待预测二级结构的氨基酸片段 U=ATSGVFL
序列比对: T=STNGIYW U=ATSGVFL
直接将T的构象态赋予U
• 更为合理的方法:
是将待预测二级结构的蛋白质U与多个同源 序列进行多重比对,对于U的每个残基位置, 其构象态由多个同源序列对应位置的构象态 决定,或取出现次数最多的构象态,或对各 种可能的构象态给出得分值。
定义信息为:
I (S; R) log[P(S | R) / P(S)]
• 若S和R无关,则 I(S; R)=0 • 若R的发生有利于S的发生,则I(S; R)>0 • 若R的发生不利于S的发生,则I(S; R)<0
• I(S; R)在二级结构预测中的含义
– R代表中心氨基酸及其所处环境 – S代表二级结构类型 – I(S; R)代表中心氨基酸处于S的信息值
(2) GOR方法
• 是一种基于信息论和贝叶斯统计学的方法
• GOR将蛋白质序列当作一连串的信息值来处 理
• GOR方法不仅考虑被预测位置本身氨基酸残 基种类的影响,而且考虑相邻残基种类对该 位置构象的影响
序列窗口 中心残基
窗口中各个残基对中心残基二级结构的支持程度
两个事件S和R的条件概率P(S|R) 即在R发生的条件下,S发生的概率
发现关于二级结构的经验规则
基本思想是在序列中寻找规则二级结构的成核 位点和终止位点。
• 扫描输入的氨基酸序列,利用一组规则发现可能成 为特定二级结构成核区域的短序列,然后对于成核 区域进行扩展,不断扩大成核区域,直到倾向性因 子小于1.0为止。
• 规则:
– (i)α螺旋规则 – (ii)β折叠规则 – (iii)转角规则 – (iv) 重叠规则
• 在进行结构预测时考虑氨基酸残基的物理化学性 质
– 如疏水性、极性、侧链基团的大小等,根据残基各方 面的性质及残基之间的组合预测可能形成的二级结构。
• “疏水性”是氨基酸的一种重要性质,疏水性的 氨基酸倾向于远离周围水分子,将自己包埋进蛋 白质的内部。
α螺旋的形成规律:
•在一段序列中发现第i、i+3、i+4位(如1、 4、5)是疏水残基时,这一片段就被预 测为α螺旋;
延伸 成核区 延伸
(i)α螺旋规则
延伸 螺旋核 延伸
• 沿蛋白质序列寻找α螺旋核
– 相邻的6个残基中如果有至少4个残基倾向于形成 α螺旋,则认为是螺旋核。
• 从螺旋核向两端延伸
– 直至四肽片段的α螺旋倾向性因子的平均值 {P}<1.0为止。
• 将螺旋两端各去掉3个残基
– 剩余部分若长于6个残基,而且{P} >1.03,则 预测为螺旋。
成特定二级结构的倾向作为预测依据
• 这些算法可以归为几类: (1)基于统计信息 (2)基于物理化学性质 (3)基于序列模式 (4)基于多层神经网络 (5)基于多元统计 (6)基于机器学习的专家规则 (7)最邻近算法
• 第一代和第二代预测方法对三态预测的准确 率都小于70%,而对折叠预测的准确率仅为 2848%
– 包括:
• 经验性方法 • 结构规律提取方法 • 同源模型化方法
第二节 蛋白质二级结构预测
蛋白质 序列: ↓
二级结构:
二级结构预测
蛋白质 序列:
二级结构:
QLMGERIRARRKKLK → STHHHHHHHHHHHHT
1、二级结构预测概述
– 蛋白质的二级结构预测的基本依据是:
每一段相邻的氨基酸残基具有形成一定二 级结构的倾向。
蛋白质结构预测
主讲人:孙 啸
制作人: 刘志华
东南大学 吴健雄实验室
第一节 引言
• 蛋白质结构预测问题 序列——结构——功能
….-Gly-Ala-Glu-Phe-….
FUNCTION
结构预测问题
….-Gly-Ala-Glu-Phe-….
?
FUNCTION
解决方法
….-Gly-Ala-Glu-Phe-….
聚类分析
预测….-Gly-Ala-Glu-Phe-….
学习分类规则
• 二级结构预测的方法大体分为三代:
– 第一代是基于单个氨基酸残基统计分析
• 从有限的数据集中提取各种残基形成特定二级结构的 倾向,以此作为二级结构预测的依据。
– 第二代预测方法是基于氨基酸片段的统计分析
• 统计的对象是氨基酸片段 • 片段的长度通常为11-21 • 片段体现了中心残基所处的环境 • 在预测中心残基的二级结构时,以残基在特定环境形
(ii)β折叠规则
相关主题