10蛋白质的结构与功能预测
n GOR方法不仅考虑被预测位置本身氨基酸残 基种类的影响,而且考虑相邻残基种类对该 位置构象的影响
序列窗口 中心残基
窗口中各个残基对中心残基二级结构的支持程度
两个事件S和R的条件概率P(S|R) 即在R发生的条件下,S发生的概率
定义信息为:
发现关于二级结构的经验规则
基本思想是在序列中寻ห้องสมุดไป่ตู้规则二级结构的成核 位点和终止位点。
n 扫描输入的氨基酸序列,利用一组规则发现可能成 为特定二级结构成核区域的短序列,然后对于成核
区域进行扩展,不断扩大成核区域,直到倾向性因
子小于1.0为止。
n 规则:
n (i)α螺旋规则 n (ii)β折叠规则
延伸 成核区 延伸
序列到蛋白质所有原子三维坐 标的一种映射
n 蛋白质结构预测主要有两大类方法:
(1)理论分析方法
n 通过理论计算(如分子力学、分子动力学计算) 进行结构预测。
(2)统计的方法
n 对已知结构的蛋白质进行统计分析,建立序列到 结构的映射模型,进而对未知结构的蛋白质根据 映射模型直接从氨基酸序列预测结构。
n 二级结构预测问题是模式分类问题
n 二级结构预测的目标:
n 判断每一段中心的残基是否处于螺旋、折叠、 转角(或其它状态)之一的二级结构态,即三 态。
基本策略(1) 相似序列→相似结构
QLMGERIRARRKKLK
QLMGAERIRARRKKLK
结构?
基本策略(2) 分类分析
α螺旋
提取样本
聚类分析
第七章 蛋白质结构预测
第一节 引言
n 蛋白质结构预测问题 序列——结构——功能
….-Gly-Ala-Glu-Phe-….
FUNCTION
结构预测问题
….-Gly-Ala-Glu-Phe-….
?
FUNCTION
解决方法
….-Gly-Ala-Glu-Phe-….
!
FUNCTION
寻找一种从蛋白质的氨基酸线性
的4个残基形成转角。
则可以预测这样连续的4个氨基酸形成转角。
(iv) 重叠规则
n 对于螺旋和折叠的重叠区域,按{Pa}和{P}的 相对大小进行预测
n 若{Pa}大于{P},则预测为螺旋; n 反之,预测为折叠。
(2) GOR方法 n 是一种基于信息论和贝叶斯统计学的方法
n GOR将蛋白质序列当作一连串的信息值来处 理
(ii)β折叠规则
n 相邻6个残基中若有4个倾向于形成β折叠,则 认为是折叠核。
n 折叠核向两端延伸直至4个残基的平均折叠倾 向性因子{P}<1.0。
n 若延伸后的片段的{P}>1.05,则预测为β折叠。
(iii)转角规则
转角的模型为四肽
fj 1fj2fj 3fj47.5 1 5 0
四肽片段Pt的平均值大于100,并且Pt 的均值同时大 于P 的均值以及P 的均值,则可以预测这样连续
n 第三代方法(考虑多条序列)
n 运用长程信息和蛋白质序列的进化信息
n 准确度有了比较大的提高
2、蛋白质二级结构预测方法
(1) 经验参数法
n 蛋白质二级结构的组成规律性比较强
n 三种基本二级结构平均占氨基酸残基的 85%
n 各种二级结构非均匀地分布在蛋白质中
n 有些蛋白质中含有大量的螺旋
n 如血红蛋白和肌红蛋白
预测….-Gly-Ala-Glu-Phe-….
学习分类规则
n 二级结构预测的方法大体分为三代:
n 第一代是基于单个氨基酸残基统计分析
n 从有限的数据集中提取各种残基形成特定二级结构的 倾向,以此作为二级结构预测的依据。
n 第二代预测方法是基于氨基酸片段的统计分析
n 统计的对象是氨基酸片段 n 片段的长度通常为11-21 n 片段体现了中心残基所处的环境
n 包括:
n 经验性方法 n 结构规律提取方法 n 同源模型化方法
第二节 蛋白质二级结构预测
蛋白质 序列: ↓
二级结构:
二级结构预测
蛋白质 序列:
二级结构:
QLMGERIRARRKKLK → STHHHHHHHHHHHHT
1、二级结构预测概述
n 蛋白质的二级结构预测的基本依据是:
每一段相邻的氨基酸残基具有形成一定二 级结构的倾向。
例如:Glu主要出现在螺旋中 Asp和Gly主要分布在转角中 Pro也常出现在转角中,但是绝不会出现在
螺旋中
n 可以根据每种氨基酸残基形成二级结构的倾 向性或者统计规律进行二级结构预测
n 经验参数法由Chou 和Fasman在70年代提出 来
n 是一种基于单个氨基酸残基统计的经验预测 方法。 通过统计分析,获得的每个残基出现 于特定二级结构构象的倾向性因子,进而利 用这些倾向性因子预测蛋白质的二级结构。
n (iii)转角规则
n (iv) 重叠规则
(i)α螺旋规则
延伸 螺旋核 延伸
n 沿蛋白质序列寻找α螺旋核
n 相邻的6个残基中如果有至少4个残基倾向于形成 α螺旋,则认为是螺旋核。
n 从螺旋核向两端延伸
n 直至四肽片段的α螺旋倾向性因子的平均值 {P}<1.0为止。
n 将螺旋两端各去掉3个残基
n 剩余部分若长于6个残基,而且{P} >1.03,则预 测为螺旋。
一个氨基酸残基的构象倾向性因子定义为 Pi = Ai / Ti (i= ,β, t ,c)
式中下标i表示构象态 如螺旋、β折叠、转角、无规卷曲等;
Ti是所有被统计残基处于构象态i的比例; Ai是第A种残基处于构象态i 的比例; Pi大于1.0表示该残基倾向于形成二级结构构象i,
小于1.0则表示倾向于形成其它构象。
n 而一些蛋白质中则不含或者仅含很少的螺旋
n 如铁氧蛋白
n 有些蛋白质的二级结构以折叠为主
n 如免疫球蛋白 例:肽链Ala(A)-Glu(E)-Leu(L)-Met(M) 倾向于形成螺旋
肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成螺旋
n 每种氨基酸出现在各种二级结构中倾向或者 频率是不同的
n 在预测中心残基的二级结构时,以残基在特定环境形 成特定二级结构的倾向作为预测依据
n 这些算法可以归为几类:
(1)基于统计信息 (2)基于物理化学性质 (3)基于序列模式 (4)基于多层神经网络 (5)基于多元统计 (6)基于机器学习的专家规则 (7)最邻近算法
n 第一代和第二代预测方法对三态预测的准确率 都小于70%,而对折叠预测的准确率仅为 2848% n 其主要原因是只利用局部信息