第一节、蛋白质数据库介绍
一、蛋白质一级数据库
主要蛋白质序列数据库的网址
SWISS-PROT
或
TrEMBL
PIR
MIPS
三、蛋白质二级结构预测网站(数据库)
4
始建于
基于对蛋白质家族中同源序列多重序列比对得到的保守
物学功能相关。
数据库包括两个数据库文件:数据文件
Prosite
5
蛋白质二级结构构象参数数据库DSSP
6
蛋白质家族数据库
FSSP
7
同源蛋白质数据库
HSSP
在前面已经述说过了。
第二节、蛋白质序列分析方法
一、多序列比对
双序列比对是序列分析的基础。
然而,对于构成基因家族们要建立多个序列之间的关系,
在阐明一组相关序列的重要生物学模式方面起着相当重要
多序列比对有时用来区分一组序列之间的差异,
的相似性关系,
对一样,多序列比对的方法建立在某个数学或生物学模型
因此,正如我们不能对双序列比对的结果得出
序列比对的结果也没有绝对正确和绝对错误之分,
大程度上反映了序列之间的相似性关系以及它们的生物学
我们称比对前序列中残基的位置为绝对位置。
G
比对后序列中残基的位置为相对位置。
而每个残基的绝对位置不同,因为它们来自不同的序列。
绝对位置是序列本身固有的属性,
比对后的位置,也就比对过程赋予它的属性。
算法复杂性
多序列比对的计算量相当可观,
所需要的计算时间和内存空间与这两个序列的长度有关,列长度的乘积,用
列比对则可以理解为将双序列比对的两维空间扩展到三维增加一条坐标轴。
这样算法复杂性就变成了
条序列的长度。
残基组件和三维分子图形软件所用的颜色分类方法,比较容易为大家接受(表2)。
外,也可用来评估比对质量。
如果序列的相似性值低于预列间亲缘关系较远,也可能是比对中有错误之处
2
同步法实质是把给定的所有序列同时进行比对,而不是两对。
其基本思想是将一个二维的动态规划矩阵扩展到三维或多参与比对的序列数。
的较短的序列的比对
3
这类方法中最常用的就是
(
进行序列的比对不太现实,因此大多数实用的多序列比对以降低运算复杂度。
Clustal
先对所有的序列进行两两比对并计算它们的相似性分数值值将它们分成若干组,并在每组之间进行比对,计算相似分数值继续分组比对,直到得到最终比对结果。
比对过程序列先进行比对,而距离较远的序列添加在后面。
作为程可以输出用于构建进化树的数据。
开始,
①比较未知蛋白序列与已知蛋白质序列的相似性;
②查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。
所以,一般的策略是首先进行
FASTA
Smith-Waterman
BLITZ
BLITZ
所以很花时,
列相同比率低于
似估计的程序错过
还应注意计分矩阵
因:首先,选用的矩阵必须与匹配水平相一致,例如,配
一个通用矩阵;第二,使用不同矩阵,可以发现始终出现减少误差的办法。
除了选用不同的计分矩阵,
据库是无冗余蛋白序列数据库
试,如可用
(/bsm/dbbrowser/OWL/owl_bla。