当前位置:文档之家› 蛋白质序列分析1

蛋白质序列分析1


② 蛋白质是否包含“coiled-coils”结构。

螺旋卷曲结构可以在“COILS server”
( /software/COILS form.html)上预测, 螺旋卷曲结
构在蛋白质结构中属于一种结构模体, 是一种两条蛋白质螺旋 链相互缠绕的结构, 常常出现在球蛋白以及螺旋卷曲蛋白中。

3.1.3 蛋白质结构数据库和结构分类数据库
1. PDB( protein data bank , PDB)

/pdb/
PDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病毒 等生物大分子结构数据, 主要是蛋白质结构数据, 这些数据 来源于几乎全世界所有从事生物大分子结构研究的研究机

这个数据库包含1 500 个蛋白质指纹图谱, 编码9 136 个
单一模体。
(3) BLOCKS ( / )

BLOCKS 是通过一些高度保守的蛋白质区域比对出来的
无空位的片段。
3.1.2 模体以及结构域数据库
2. 蛋白质结构域数据库 (1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库
的序列有时会称为“标志”( signature) ,就是所谓的模式序列( pattern ) 。

例如有序列表示为“ H-[ FW]-x-[ LIVM ]-x-G-x ( 5 )-[ LV]-H- x( 3)-[DE]”, 这是描述一个DNA 结合蛋白质家族的, 可以理解为组氨酸, 接着是苯丙氨
酸或者色氨酸, 紧接一个氨基酸x, 然后可以是亮氨酸、异亮氨酸、缬氨酸、

② MotifScan 用于查找未知序列中所有可能的已知结构组 件, 数据库包括PROSITE序列表谱、PROSITE 模式、Pfam 收集的隐马尔可夫模式( HMM)。
3.1.2 模体以及结构域数据库
(2) PRINTS Fingerprint Database
(/dbrowser/PRINTS/ )
通过一些序列分析工具进行蛋白质理化特性的预测、修饰
位点的预测等。
3.3 蛋白质序列分析及结构预测策略
3.3.2 蛋白质序列数据 ① 蛋白质是否为跨膜蛋白质, 是否有跨膜片段。

预测方法有:TMAP ( www.mbb.ki.se/tmap/index.html)、
TMHMM(CBS, Denmark, www.cbs.dtu.dk/services/TMHMM-1.0/)。
3.2 蛋白质序列分析
3.2.1 蛋白质序列信息的获取
1) 直接测序
2) 翻译编码的DNA序列 ORF Finder 3) 在数据库中搜索

运用ID 号、入口号、条目号等搜索。 运用关键词搜索 其他方式搜索。如可以通过引用序列的文献、序列的 作者、序列提交的日期等进行搜索。
3.2 蛋白质序列分析

网址:/pirwww 课堂演示,网页 及认识数据库内容。
3.1.1 蛋白质序列数据库
2. SWISS-PROT/ TrEMBL数据库( /swissprot )

SWISS-PROT 数据库是经注释的蛋白质数据库, 始建于
1986 年, 现在由瑞士生物信息研究所(Swiss Institute of Bioinformatics, SIB) 和欧洲生物信息研究所( European
Bioinformatics Institute, EBI) 共同维护。

它是ExPASy 网站的一部分, 数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献信息、分类学信息、注 释等, 注释中包括蛋白质的功能、转录后修饰位点、特殊位 点和区域、二级结构、四级结构、与其他序列的相似性、序


3 .1 蛋白质数据库介绍
特征:
这些数据库种类有差别, 但内部是相互联系的, 每个 数据库都有指针指向其他数据库, 而且数据库之间的序列
以及相应的结构是共享的, 同一种蛋白质依次会出现在不
同的数据库, 这样的数据沟通有助于更深层地挖掘蛋白质 的内在生物信息, 这些数据库是融序列信息的索取、处理、 存储、输出于一身的。
功能:
随着网络资源的日益丰富, 蛋白质数据库不论其数据 为何种形式, 都具备3 种功能:

第一、对数据的注释功能。所有提交到数据库的数据都 要由作者或数据库管理人员进行注释方能发布。
第二、对数据的检索功能。数据经注释之后, 访问者就可 以通过数据库网页上提供的搜索引擎进行搜索, 找到自己 所需的蛋白质信息。 第三、对数据的生物信息分析功能。访问者一旦找到感 兴趣的蛋白质, 就可以运用数据库提供的生物信息分析工 具对蛋白质序列的未知数据进行预测, 如预测蛋白质的理 化性质, 预测蛋白质的二级结构, 多重序列比对, 等等, 因 此通过网上资源对蛋白质的生物信息做出比较完整的分 析是可以做到的。
3.1.2 模体以及结构域数据库
(1)PROSITE 蛋白质家族及结构域数据库( /prosite/ )
同时数据库提供了序列分析工具:

① ScanProsite 是用于搜索所提交的序列数据是否包含
PROSITE 数据库中的序列模式或者SWISS-PROT 数据库中
已提交的序列模式;

3.1.1 蛋白质序列数据库

PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分
类完整的蛋白质序列数据库。PIR-PSD 的序列来自于将
GenBank/ EMBL/ DDBJ 三大数据库的编码序列的翻译而 成的蛋白质序列、发表的文献中的序列和用户直接提交的
序列。

以PIR-PSD 为基础, PIR 还衍生出PIRNREF、iPROClass 以及其他PIR 辅助数据库, 为基因组学和蛋白质组学提供 了从序列到结构直至功能的完整分析工具。
(/BLAST/ ) BLASTp
(2) FASTA (/fasta33/ ) 3) 模体搜索
(1) PROSITE ( www.expasy.ch/prosite/)
(2) ScanProsite 搜索 (/tools/scanprosite/)
4) 点矩阵
3.3 蛋白质序列分析及结构预测策略
3.3.1 实验数据
图3 .49 蛋白质序列分 析及结构预测流程图
3.3 蛋白质序列分析及结构预测策略
3.3.2 蛋白质序列数据

目前大部分蛋白质序列是通过DNA 人工翻译过来的, 实际
上很少有人能获得真正的蛋白质, 因而实验证据就很难直 接获得, 因此对蛋白质序列初始分析是很有价值的。比如


蛋白质模体及结构域数据库:如PROSITE、Pfam, 这些数 据库主要收集了蛋白质的保守结构域和功能域的特征序列;
蛋白质结构数据库: 如PDB 等, 这些数据库主要以蛋白质 的结构测量数据为主; 蛋白质分类数据库:如SCOP、CATH、FSSP 等, 这其中 又有以序列比较为基础的序列分类数据库以及以结构比较 为基础的结构分类数据库之分。
Pfam( protein families database of alignments and HMMs)
Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库, 其网址是: /Software/Pfam/index.shtml。 (2) 蛋白质结构域数据库ProDom 网址是: http://prodes.toulouse.inra.fr/prodom/doc/prodom.html (3) SMART SMART 是一个简单的结构研究工具, 可对可转移的遗传因 子进行鉴定和注解, 以及分析结构域结构, 可以检测出500 多个参与信号传导、胞外和染色体相关蛋白质的结构域家 族, 对这些结构域又在系统进化树分布、功能分类、三级结 构和重要的功能残基方面做了注解。 其网址是: http://smart.embl-heidelberg.de/。
构, 并由RCSB 维护和注释。
2. CATH 数据库 /bsm/cathnew/index.html。 3. SCOP 蛋白质结构分类数据库( structural classification of protein database,SCOP)
/scop/index.html
4) 蛋白质序列检索实例

以PIR为例: /pirwww
3.2.2蛋白质序列的格式化

1) FASTA格式

2) 序列文件格式
3.2 蛋白质序列分析
3.2.3 序列分析
1) 序列比对的打分系统( scoring system): 空位罚分
2) 序列数据库搜索 (1) BLAST ( basic local alignment search tool)
③ 蛋白质中是否含有低复杂度序列。

蛋白质中经常含有多聚谷氨酸, 或者多聚丝氨酸等结构, 可以 用SEG 程序预测。
3.3 蛋白质序列分析及结构预测策略
3.3.3 序列数据库搜索
1) 一种序列搜索方法, 其目的是寻找蛋白质中结构域或者功能域。这 个方法不是给每个位置的氨基酸打分, 然后得到一个相似程度, 而是直接 描述关键的几个保守残基, 同时忽略其他位置的氨基酸多态性, 这些保守
蛋白质序列分析
王兴平
内容

3 .1 蛋白质数据库介绍


3 .2 蛋白质序列分析
3 .3 蛋白质序列分析及结构预测策略


3 .4 一级结构的预测
3 .5 二级结构预测方法


3 .6 其他序列分析工具
3 .7 三级结构预测

3 .8 蛋白质家族分析
3 .1 蛋白质数据库介绍

蛋白质的结构主要分为四级, 一级结构、二级结构、三级结 构以及四级结构。依据这种结构层次, 将蛋白质数据库分为: 蛋白质序列数据库:如PIR、SWISS-PROT、NCBI , 这些 数据库的数据主要以蛋白质的序列为主, 并赋予相应的注释;
相关主题