当前位置：文档之家› 第六章1生物信息学详细讲义

第六章1生物信息学详细讲义

（2）统计的方法
–
–
经验性方法结构规律提取方法同源模型化方法
蛋白质序列： ↓ 二级结构：
3.1、二级结构预测概述
–
– –
蛋白质的二级结构预测的基本依据是：每一段相邻的氨基酸残基具有形成一定二级结构的倾向。二级结构预测问题是模式分类问题二级结构预测的目标：

判断每一段中心的残基是否处于螺旋、折叠、转角（或其它状态）之一的二级结构态，即三态。
(5) 综合方法综合方法不仅包括各种预测方法的综合，而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。
– – –
多个程序同时预测，综合评判一致结果序列比对与二级结构预测双重预测
首先预测蛋白质的结构类型然后再预测二级结构
3.3、利用进化信息预测蛋白质的二级结构

蛋白质序列家族中氨基酸的替换模式是高度特异的，如何利用这样的进化信息是二级结构预测的关键。蛋白质二级结构预测软件系统PHD
–
–
第一步工作是形成同源序列的多重对比排列第二步工作是将得到的多重比对的统计结果送到一个神经网络中计算。
4、常用蛋白质数据库介绍
主要的蛋白质数据库有: 存储蛋白质结构的PDB(Protein Data Bank),进行蛋白质结构比较的SCOP和CATH,以及存储次级结构为主的Pfam等.
/ β蛋白
1.2 蛋白质基本特性分析
一级结构的基础上可分析：分子质量、分子式、等电点、氨基酸组成、理论消光系数、疏水性、稳定性等物理、化学特征。常用软件：ProtParam /tools/protparam.html
1.2 蛋白质基本特性分析
蛋白质结构域、基序与结合部位分析，以此来建立结构域的数据库和相应预测模型。主要数据来源于SCOP 和CATH等结构分类数据库。通过PredictProtein (http://cubic /predicProtein)可获得有关的大部分信息。结构域：多肽链上那些可折叠为球状结构的特殊片段，并发挥特殊的生物学功能。基序(motif)：通常是指蛋白质相互作用中最小的功能单位，一般位于球形蛋白质的表面。结合部位(binding site):则是指蛋白与蛋白或其配体结合的具体部位，通常是一个或几个氨基酸残基。
是一种基于单个氨基酸残基统计的经验预测方法。通过统计分析，获得的每个残基出现于特定二级结构构象的倾向性因子，进而利用这些倾向性因子预测蛋白质的二级结构。

蛋白质二级结构的组成规律性比较强三种基本二级结构平均占氨基酸残基的85%

各种二级结构非均匀地分布在蛋白质中
–
有些蛋白质中含有大量的螺旋

对于β折叠的形成规律：对于β折叠，也存在着一些特征的亲疏水残基间隔模式，埋藏的β折叠通常由连续的疏水残基组成，一侧暴露的β折叠则通常具有亲水-疏水的两残基重复模式。原则上，通过在序列中搜寻特殊的亲疏水残基间隔模式，就可以预测α螺旋和β折叠。

(4) 同源分析法将待预测的片段与数据库中已知二级结构的片段进行相似性比较，利用打分矩阵计算出相似性得分，根据相似性得分以及数据库中的构象态，构建出待预测片段的二级结构。该方法对数据库中同源序列的存在非常敏感，若数据库中有相似性大于30%的序列，则预测准确率可大大上升。

(2) GOR方法是一种基于信息论和贝叶斯统计学的方法 GOR将蛋白质序列当作一连串的信息值来处理 GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响，而且考虑相邻残基种类对该位置构象的影响
序列窗口
中心残基
窗口中各个残基对中心残基二级结构的支持程度
两个事件S和R的条件概率P(S|R) 即在R发生的条件下，S发生的概率定义信息为：
–
如疏水性、极性、侧链基团的大小等，根据残基各方面的性质及残基之间的组合预测可能形成的二级结构。

“疏水性”是氨基酸的一种重要性质，疏水性的氨基酸倾向于远离周围水分子，将自己包埋进蛋白质的内部。

α螺旋的形成规律：在一段序列中发现第i、i+3、i+4位（如1、4、 5）是疏水残基时，这一片段就被预测为α螺旋；当发现第i、i+1、i+4位（如7，8，11）为疏水残基时，这一片段也被预测为α螺旋。
f H , A / f H ', A） log( f H ' / f H )
log(( 240 / 390 ) /(150 / 390 )) log(( 1050 / 1830 ) /( 780 / 1830 )) 0 . 7650
(3) Lim方法——立体化学方法氨基酸的理化性质对二级结构影响较大在进行结构预测时考虑氨基酸残基的物理化学性质
二级结构预测的方法大体分为三代：
–
第一代是基于单个氨基酸残基统计分析

从有限的数据集中提取各种残基形成特定二级结构的倾向，以此作为二级结构预测的依据。统计的对象是氨基酸片段片段的长度通常为11-21 片段体现了中心残基所处的环境在预测中心残基的二级结构时，以残基在特定环境形成特定二级结构的倾向作为预测依据
–
例如：，1050个处于非螺旋态库中共有390 个丙氨酸（A），有240 个A处于螺旋态，其余 150个 A 处于非螺旋态。可得： I ( H ; A ) log(
f H 780 / 1830 f H ' 1050 / 1830 f H , A 240 / 390 f H ', A 150 / 390
1.3.2 折叠识别(fold recognition)
又称反向蛋白折叠（reverse protein folding）,将待分析蛋白质序列作为查询单位，查找几种常用的折叠数据库，如SCOP、CATH 和DALI等，再对其3D结构进行预测。基本原理：根据识别出的已知蛋白质折叠区，来对未知蛋白质的折叠结构进行指认。可能原因：①趋异进化（divergent evolution） ②趋同进化（convergent evolution） ③序列变化千千万万，但折叠方式屈指可数,导致不相关的蛋白质其折叠结构也有某种相似性 ④折叠分类方法的错误,产生结构的相似性,即所谓的假阳性结果。
2.2 核磁共振(NMR)光谱分析
与X-射线晶体结构分析相比较,NMR技术无须制备晶体标本,可在溶液中直接测定,也可进行固相测定,因此利用 NMR法使得某些无法获得晶体结构的蛋白质或非液相蛋白质的结构测定成为可能。原理:分析受磁场作用下,经磁力加速旋转的原子核不同状态间转换时的情形。
3、蛋白质二级结构预测
I ( S ; R ) log[ P ( S | R ) / P ( S )]

若S和R无关，则 I(S; R)=0 若R的发生有利于S的发生，则I(S; R)>0 若R的发生不利于S的发生，则I(S; R)<0
I(S;
R)在二级结构预测中的含义
R代表中心氨基酸及其所处环境 – S代表二级结构类型 – I(S; R)代表中心氨基酸处于S的信息值
蛋白质结构预测问题 ….-Gly-Ala-Glu-Phe-….
序列——结构——功能
FUNCTION
结构预测问题
….-Gly-Ala-Glu-Phe-….
?
FUNCTION
解决方法
….-Gly-Ala-Glu-Phe-….
！
FUNCTION
蛋白质结构预测主要有两大类方法：
（1）理论分析方法
–
通过理论计算（如分子力学、分子动力学计算）进行结构预测。对已知结构的蛋白质进行统计分析，建立序列到结构的映射模型，进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。包括：
2.1 X-衍射蛋白质晶体结构分析
X-射线晶体结构分析是解析生物大分子结构与功能的基本方法.该法首先是将待分析的纯化蛋白质形成晶体, 然后利用X-衍射技术得到该晶体的相关数据,整合成相应的图象,存储于结构数据库中。高通量晶体结构分析中的几大重要环节是:数据处理与分析、重原子的定位、密度修饰、分子替换、图形整合、模型加工和确认。
基本策略（1）相似序列→相似结构
QLMGERIRARRKKLK QLMGAERIRARRKKLK
结构？
基本策略（2）分类分析
α 螺旋
提取样本
预测….-Gly-Ala-Glu-Phe-…. 聚类分析
学习分类规则
3.2、蛋白质二级结构预测方法
(1)经验参数法
经验参数法由Chou 和Fasman在70年代提出来
1.3.3 从头开始折叠(ab initio folding)
直接根据蛋白质序列的理化特征预测其构象的方法。原理：基于蛋白质一级结构决定其空间结构。
2、蛋白质结构分析的技术平台
目前蛋白质结构分析主要有以下几大技术平台：结构生物信息学、X-衍射蛋白质晶体结构分析、核磁共振(NMR)光谱分析、电镜技术。
1.3 蛋白质拓扑结构、折叠和三维结构模型
通过蛋白质的3D模型来推断和预测次级结构是目前结构生物信息学的热点之一。目前应用最广泛的DSSP(http://www.cmbi.kun.nl/gv/dssp) 程序，它是基于骨架之间的氢键模型建立的程序。次级结构主要用途：①预示折叠方式②蛋白质结构视观中的直觉方式③影响序列的比对④与功能密切相关

如血红蛋白和肌红蛋白
–
而一些蛋白质中则不含或者仅含很少的螺旋

如铁氧蛋白
–
有些蛋白质的二级结构以折叠为主
如免疫球蛋白例：肽链Ala(A)-Glu(E)-Leu(L)-Met(M) 倾向于形成螺旋肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成螺旋

e商务文档

第六章1生物信息学详细讲义

相关文档推荐：