第十一章 蛋白质结构及预测
• 一般来说,分析时应搜索所有的相关数据库,以 保证没有任何的遗漏。
3. 蛋白质结构的预测
• 一般情况下,蛋白质的结构分为4个层次: • 初级结构——组成蛋白质的氨基酸序列; • 二级结构——即骨架原子间的相互作用形成 的局部结构,比如a螺旋,折叠等; • 三级结构——即二级结构在更大范围内的堆 积形成的空间结构; • 四级结构——主要描述由三级结构 形成的 不同亚基之间的相互作用。
3.3 三级和四级结构
• 三级结构
– 肽链折叠成三维的空间结构 – 二级结构在空间上的排布 – 长程的、共价与非共价的相互作用 – 如果蛋白质只有1条肽链,三级结构就是最高结 构层次
• 四级结构
– 多个肽链在空间上的排布
蛋白质的三级结构
Zn
β折叠
α螺旋
疏水核心
在二级结构基础上的肽链再折叠形成的构象
Ab Initio Prediction
• 1. 能量函数
– – – – – 键能 (bond energy) 键的转角能 (bond angle energy) 二面角能 (dihedral angle energy) 范德华力 (van der Waals energy) 静电力 (electrostatic energy)
在多肽链之间或一条肽链的肽段之间靠氢键联结而成的锯齿状片层结构
平行的-sheet
反平行的-sheet
混合的-Sheets
Loops
• 1. 连接a-helix和-sheet
• 2. 长度和三级结构不定
• 3. 在蛋白质结构的表面
• 4. 受点突变的影响小
• 5. 柔性好,构象变化余地大 • 6. 带电荷、极性的氨基酸比例高 • 7. 倾向成为活性位点
a- helix
• 1. 蛋白质中最多的二级结构 • 2. 平均长度:10个氨基酸残基
– 长度范围:5-40aa – 每一圈:3.6个aa
– 通过氢键 (~per 4aa) 稳定结构
– 通常在内核的表面,疏水残基向内,亲水残基
向外
肽链主链骨架围绕中心轴盘旋成螺旋状的结构
ahelix 通过氢键稳定结构
Homology Modeling
Swiss-Model网站: http://expasy.hcuge.ch/swissmod/SWISSMODEL.html 它是一个蛋白质自动建模服务器,使用者可直接发送一条序 列给该服务器用于同源性建模。
• (2)从头计算(Ab initio) 方法:这类方 法的依据是热力学理论,即求蛋白质能量 最小的状态。生物学家和物理学家等认为 从原理上讲这是影响蛋白质结构的本质因 素。然而由于巨大的计算量,这种方法并 不实用,目前只能计算几个氨基酸形成的 结构。IBM 开发的 Blue Gene 超级计算机, 就是要解决这个问题。
3.1 蛋白质的一级结构
动物的胰岛素(Insulin),氨基酸序列线性排列
3.2 蛋白质的二级结构
• 二级结构是指多肽链借助于氢键沿一维方 向排列成具有周期性的结构的构象,是多 肽链局部 的空间结构 • 主要有 α-螺旋、β-折叠、β-转角、loop、 colis等几种形式,它们是构成蛋白质高级结 构的基本要素。 • 多肽链中有60%的区段为α-螺旋和β-折 叠。
• ①比较未知蛋白序列与已知蛋白质序列的相 似性; • ②查找未知蛋白中是否包含与特定蛋白质家 族或功能域有关的亚序列或保守区段。
• ①通过比对数据库中的相似序列确定功能 • 最可靠的确定蛋白质功能的方法是进行数据库 的相似性搜索 。一个显著的匹配应至少有25% 的相同序列和超过80 个氨基酸的区段。 • 一般的策略是首先进行BLASTP检索,如果不能 提供相关结果,可选用根据Smith-Waterman算 法设计的搜索程序, 例如BLITZ /searches/blitz.html。 • 通常诸如BLITZ的程序能够发现超过几百个残基 但序列相同比率低于20~25%的匹配,这些匹 配可能达到显著,但会被那些应用近似估计的 程序错过。
• 预测前导序列或特殊区室靶蛋白信号的程 序: • SignalP: http://www.cbs.dtu.dk/services/SignalP • PSORT: http://psort.nibbac.jp/form.html • 预测卷曲(coil)螺旋相关的2个程序: • COILS: http://ulrec3.unil.ch/software/COILS_form.html • Paircoil: /cgi-bin/score
C = black O = red N = blue
ahelices:氨基酸偏好
• Ala, Glu, Leu, Met:出现频率高 • Pro, Gly Tyr, Ser:出现频率低
- Sheets
• 1. 一般不单独出现,成对或多个出现 • 2. 链通过氢键连接,稳定结构 • 3. 相互作用的部分通过短的/长的loop连接 • 4. 平行或反平行的sheet
• Threading 法 : • 先设计一个能量函数。
• 然后从模板库中取出一条模版序列和查询 序列作序列比对,并将模版序列与查询序 列匹配上的残基的空间坐标赋给查询序列 上相应的残基。 • 通过设计的能量函数,得到一个能量值。 将这个操作应用到所有的模版上,取能量 值最低的那条模版产生的查询序列的空间 坐标为我们的预测结果。
Threading
Target Sequence ALKKGF…HFDTSE
Structure Templates
1. 将给定序列与模板库做序列比较 (fold library) 2. 评分准则:给定序列是否与模板的结构吻合 (1D3D profile) 3. 根据打分结果对模板适用性给予排序
蛋白质的四级结构
组成蛋白质的多条肽链在天然构象空间上的排列方式, 多以弱键互相连接,疏水力、氢键、盐键
3.4 蛋白质结构的预测
• 蛋白质结构预测的方法可以分为三种: • (1)同源性(Homology)方法:这类方法的 理论依据是如果两个蛋白质的序列比较相似, 则其结构也有很大可能比较相似。有工作表明, 如果序列相似性高于 75%,则可以使用这种 方法进行粗略的预测。这类方法的优点是准确 度高,缺点是只能处理和模板库中蛋白质序列 相似性较高的情况。 • 常用工具:MODELLER,Swiss-model。
• 最知名的motif数据库是 • PROSITE: / • PROSITE记录的典型形式: • 以酪蛋白激酶Ⅱ磷酸化位点的一致序列为 例:[ST]-x(2)-[DE],即一个丝氨酸(S)或酪氨 酸(T)紧跟任意2 个残基,然后再是一个D或E
• 主要有二种方法可用于序列模序的查找。 • 1. 查找匹配的一致(consensus)序列或模序。该技术 的优点是快捷,模序数据库庞大且不断被扩充;缺 点是有时不灵敏,因为只有与一致序列或模序完全 匹配才会被列出,而近乎匹配的都将被忽略。这将 使你进行更复杂的分析时受到严重限制。 • 2. 序列分布型(profile)方法。原则上,分布型搜索的 是保守序列(不只是一致序列),这样可以更灵敏地 找出那些相关性较远的序列。但是分布型和分布型 数据库的创建并非易事,它需要大量的计算和人力, 因此,分布型数据库的记录数并没有模序数据库多。 • 在实际分析时,应同时对这二种类型的数据库都进 行搜索,其中在一个数据库中显著的匹配可能在另 一个数据库中被完全错过,反之亦然。
Coils
• 无序性 (Intrinsically disordered ): 介导蛋白质-蛋 白质之间的相互作用
结构域(domian)
• domian是在二级结构或超二级结构的基础 上形成三级结构的局部折叠区。 • domian通常由 50-300 个氨基酸残基组 成, 其特点是在三维空间可以明显区分和相对 独立,并且具有一定的生物功能如结合小 分子。 • motif是结构域的亚单位,通常由 2~3个二 级结构单位组成,一般为 α 螺旋、β 折 叠 和loop。
• ②通过比对模序(motif)数据库等确定功能
• 经常会出现这样的情况:通过比对,未知 蛋白质序列与数据库内已知功能的序列均 相差较大,找不到可靠的匹配结果,相反, 也许会发现与某一不知功能的序列相匹配。
• 蛋白质不同区段的进化速率不同:蛋白质 的一些部分必须保持一定的残基模式以保 持蛋白质的功能,通过确定这些保守区域 (motif),有可能为蛋白质功能提供线索。
• 分布型(profile)数据库主要有:
• PRINTS: /bsm/dbbrowers/PRIN TS • BLOCKS: /blocks/ • ProDom: http://prodom.prabi.fr/prodom/current/html/home. php
•
•
2. 根据能量函数计算结构的最小自由能: Molecular Dynamics or Monte Carlo methods 3. 计算量大
• (3)穿线法(Threading)方法:由于 Ab Initio 方法目前只有理论上的意义,Homology 方 法受限于待求蛋白质必需和已知模板库中 某个蛋白质有较高的序列相似性,对于其 他大部分蛋白 质来说,有必要寻求新的方 法。Threading 就此应运而生。
第十一章 蛋白质功能、结构 及预测
授课教师:唐 明
本章内容提要
• 1. 基本概念
• 2. 蛋白质功能的预测
• 3. 蛋白质结构的预测 • 4.主要数据库资源和的应用 • 5. 蛋白质结构的实验测定方法 • 6.计算机辅助药物设计
• 生物细胞中有许多蛋白质,这些大分子对 于完成生物功能是至关重要的。蛋白质的 空间结构往往决定了其功能,因此,如何 揭示蛋白质的结构是非常重要的工作。
简 写 G
A V I L F P M W
氨基酸名称 丝氨酸
苏氨酸 天冬酰胺 谷胺酰胺 酪氨酸 组氨酸 天冬氨酸 谷氨酸 赖氨酸