当前位置:文档之家› 第六章1生物信息学详细讲义

第六章1生物信息学详细讲义


(2)统计的方法


经验性方法 结构规律提取方法 同源模型化方法
蛋白质 序列: ↓ 二级结构:
3.1、二级结构预测概述

– –
蛋白质的二级结构预测的基本依据是: 每一段相邻的氨基酸残基具有形成一定二级结构 的倾向。 二级结构预测问题是模式分类问题 二级结构预测的目标:

判断每一段中心的残基是否处于螺旋、折叠、转角 (或其它状态)之一的二级结构态,即三态。
(5) 综合方法 综合方法不仅包括各种预测方法的综合,而且 也包括结构实验结果、序列对比结果、蛋白质 结构分类预测结果等信息的综合。
– – –
多个程序同时预测,综合评判一致结果 序列比对与二级结构预测 双重预测
首先预测蛋白质的结构类型 然后再预测二级结构
3.3、利用进化信息预测蛋白质的二级 结构


蛋白质序列家族中氨基酸的替换模式是高度特 异的,如何利用这样的进化信息是二级结构预 测的关键。 蛋白质二级结构预测软件系统PHD


第一步工作是形成同源序列的多重对比排列 第二步工作是将得到的多重比对的统计结果送到一 个神经网络中计算。
4、常用蛋白质数据库介绍
主要的蛋白质数据库有: 存储蛋白质结构的PDB(Protein Data Bank),进 行蛋白质结构比较的SCOP和CATH,以及存储 次级结构为主的Pfam等.
/ β蛋白
1.2 蛋白质基本特性分析
一级结构的基础上可分析:分子质量、分子 式、等电点、氨基酸组成、理论消光系数、疏 水性、稳定性等物理、化学特征。 常用软件:ProtParam /tools/protparam.html
1.2 蛋白质基本特性分析
蛋白质结构域、基序与结合部位分析,以此来建立结构 域的数据库和相应预测模型。主要数据来源于SCOP 和CATH等结构分类数据库。通过PredictProtein (http://cubic /predicProtein)可获得有 关的大部分信息。 结构域:多肽链上那些可折叠为球状结构的特殊片段, 并发挥特殊的生物学功能。 基序(motif):通常是指蛋白质相互作用中最小的功能单 位,一般位于球形蛋白质的表面。 结合部位(binding site):则是指蛋白与蛋白或其配体结合 的具体部位,通常是一个或几个氨基酸残基。
是一种基于单个氨基酸残基统计的经验预测方法。 通过统计分析,获得的每个残基出现于特定二级结构构 象的倾向性因子,进而利用这些倾向性因子预测蛋 白质的二级结构。

蛋白质二级结构的组成规律性比较强 三种基本二级结构平均占氨基酸残基的85%


各种二级结构非均匀地分布在蛋白质中

有些蛋白质中含有大量的螺旋


对于β折叠的形成规律: 对于β折叠,也存在着一些特征的亲疏水残基 间隔模式,埋藏的β折叠通常由连续的疏水残 基组成,一侧暴露的β折叠则通常具有亲水-疏 水的两残基重复模式。 原则上,通过在序列中搜寻特殊的亲疏水残基 间隔模式,就可以预测α螺旋和β折叠。

(4) 同源分析法 将待预测的片段与数据库中已知二级结构的片 段进行相似性比较,利用打分矩阵计算出相似 性得分,根据相似性得分以及数据库中的构象 态,构建出待预测片段的二级结构。 该方法对数据库中同源序列的存在非常敏感, 若数据库中有相似性大于30%的序列,则预测 准确率可大大上升。

(2) GOR方法 是一种基于信息论和贝叶斯统计学的方法 GOR将蛋白质序列当作一连串的信息值来处 理 GOR方法不仅考虑被预测位置本身氨基酸残 基种类的影响,而且考虑相邻残基种类对该位 置构象的影响
序列窗口
中心残基
窗口中各个残基对中心残基二级结构的支持程度
两个事件S和R的条件概率P(S|R) 即在R发生的条件下,S发生的概率 定义信息为:

如疏水性、极性、侧链基团的大小等,根据残基各方面的性 质及残基之间的组合预测可能形成的二级结构。

“疏水性”是氨基酸的一种重要性质,疏水性的氨基 酸倾向于远离周围水分子,将自己包埋进蛋白质的内 部。

α螺旋的形成规律: 在一段序列中发现第i、i+3、i+4位(如1、4、 5)是疏水残基时,这一片段就被预测为α螺 旋; 当发现第i、i+1、i+4位(如7,8,11)为疏 水残基时,这一片段也被预测为α螺旋。
f H , A / f H ', A) log( f H ' / f H )
log(( 240 / 390 ) /(150 / 390 )) log(( 1050 / 1830 ) /( 780 / 1830 )) 0 . 7650
(3) Lim方法——立体化学方法 氨基酸的理化性质对二级结构影响较大 在进行结构预测时考虑氨基酸残基的物理化学性质
二级结构预测的方法大体分为三代:

第一代是基于单个氨基酸残基统计分析

从有限的数据集中提取各种残基形成特定二级结构的倾向,以 此作为二级结构预测的依据。 统计的对象是氨基酸片段 片段的长度通常为11-21 片段体现了中心残基所处的环境 在预测中心残基的二级结构时,以残基在特定环境形成特定二 级结构的倾向作为预测依据

例如:,1050个处于 非螺旋态库中共有390 个丙氨酸(A),有240 个A处于螺旋态,其余 150个 A 处于非螺旋态。 可得: I ( H ; A ) log(
f H 780 / 1830 f H ' 1050 / 1830 f H , A 240 / 390 f H ', A 150 / 390
1.3.2 折叠识别(fold recognition)
又称反向蛋白折叠(reverse protein folding),将待分析蛋白质序列 作为查询单位,查找几种常用的折叠数据库,如SCOP、CATH 和DALI等,再对其3D结构进行预测。 基本原理:根据识别出的已知蛋白质折叠区,来对未知蛋白质的折 叠结构进行指认。 可能原因:①趋异进化(divergent evolution) ②趋同进化(convergent evolution) ③序列变化千千万万,但折叠方式屈指可数,导致不相关的蛋白质其 折叠结构也有某种相似性 ④折叠分类方法的错误,产生结构的相似性,即所谓的假阳性结果。
2.2 核磁共振(NMR)光谱分析
与X-射线晶体结构分析相比较,NMR技术无须制备晶体标 本,可在溶液中直接测定,也可进行固相测定,因此利用 NMR法使得某些无法获得晶体结构的蛋白质或非液相 蛋白质的结构测定成为可能。 原理:分析受磁场作用下,经磁力加速旋转的原子核不同状 态间转换时的情形。
3、蛋白质二级结构预测
I ( S ; R ) log[ P ( S | R ) / P ( S )]

若S和R无关,则 I(S; R)=0 若R的发生有利于S的发生,则I(S; R)>0 若R的发生不利于S的发生,则I(S; R)<0
I(S;
R)在二级结构预测中的含义
R代表中心氨基酸及其所处环境 – S代表二级结构类型 – I(S; R)代表中心氨基酸处于S的信息值
蛋白质结构预测问题 ….-Gly-Ala-Glu-Phe-….
序列——结构——功能
FUNCTION
结构预测问题
….-Gly-Ala-Glu-Phe-….
?
FUNCTION
解决方法
….-Gly-Ala-Glu-Phe-….

FUNCTION
蛋白质结构预测主要有两大类方法:
(1)理论分析方法

通过理论计算(如分子力学、分子动力学计算)进行结构预测。 对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型, 进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结 构。 包括:
2.1 X-衍射蛋白质晶体结构分析
X-射线晶体结构分析是解析生物大分子结构与功能的基 本方法.该法首先是将待分析的纯化蛋白质形成晶体, 然后利用X-衍射技术得到该晶体的相关数据,整合成相 应的图象,存储于结构数据库中。 高通量晶体结构分析中的几大重要环节是:数据处理与分 析、重原子的定位、密度修饰、分子替换、图形整合、 模型加工和确认。
基本策略(1) 相似序列→相似结构
QLMGERIRARRKKLK QLMGAERIRARRKKLK
结构?
基本策略(2) 分类分析
α 螺旋
提取样本
预测….-Gly-Ala-Glu-Phe-…. 聚类分析
学习分类规则
3.2、蛋白质二级结构预测方法
(1)经验参数法
经验参数法由Chou 和Fasman在70年代提出来
1.3.3 从头开始折叠(ab initio folding)
直接根据蛋白质序列的理化特征预测其构象的方 法。 原理:基于蛋白质一级结构决定其空间结构。
2、蛋白质结构分析的技术平台
目前蛋白质结构分析主要有以下几大技术平台: 结构生物信息学、X-衍射蛋白质晶体结构分析、 核磁共振(NMR)光谱分析、电镜技术。
1.3 蛋白质拓扑结构、折叠和三维结 构模型
通过蛋白质的3D模型来推断和预测次级结构是 目前结构生物信息学的热点之一。目前应用最 广泛的DSSP(http://www.cmbi.kun.nl/gv/dssp) 程序,它是基于骨架之间的氢键模型建立的程 序。 次级结构主要用途:①预示折叠方式②蛋白质结 构视观中的直觉方式③影响序列的比对④与功 能密切相关

如血红蛋白和肌红蛋白

而一些蛋白质中则不含或者仅含很少的螺旋

如铁氧蛋白

有些蛋白质的二级结构以折叠为主
如免疫球蛋白 例:肽链Ala(A)-Glu(E)-Leu(L)-Met(M) 倾向于形成螺旋 肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成螺旋
相关主题