当前位置：文档之家› 蛋白质的序列分析及结构预测

蛋白质的序列分析及结构预测

二、蛋白质的序列分析
1. 蛋白质序列信息的获取 2. 蛋白质序列分析
1. 蛋白质序列信息的获取
（1）直接测序（2）翻译编码的DNA序列 ORF Finder （3）在数据库中搜索 • 运用ID 号、入口号、条目号等搜索。 • 运用关键词搜索 • 其他方式搜索。如可以通过引用序列的文献、
序列的作者、序列提交的日期等进行搜索。
这个数据库包含1 500 个蛋白质指纹图谱, 编码9 136 个单一模体。
(3) BLOCKS ( / ) BLOCKS 是通过一些高度保守的蛋白质区域比对出来
的无空位的片段。
➢ 蛋白质结构域数据库
(1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库 Pfam( protein families database of alignments and HMMs)
PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据库。PIR-PSD 的序列来自于将GenBank/ EMBL/ DDBJ 三大数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。
（2）SWISS-PROT/ TrEMBL数据库 /swissprot
1. 蛋白质序列信息的获取
（1）直接测序
e.g. Protein Sequencing and Identification by Tandem Mass Spectrometry，
即用串联质谱仪测序
串联质谱及其作用
• 两个或更多的质谱连接在一起，称为串联质谱。
•最简单的串联质谱（MS|MS）由两个质谱串联而成，其中第一个质量分析器（MS1）将离子预分离或加能量修饰，由第二级质量分析器（MS2）分析结果。
(3) SMART SMART 是一个简单的结构研究工具, 可对可转移的遗传因子进行鉴定和注解, 以及分析结构域结构, 可以检测出500 多个参与信号传导、胞外和染色体相关蛋白质的结构域家族, 对这些结构域又在系统进化树分布、功能分类、三级结构和重要的功能残基方面做了注解。 http://smart.embl-heidelberg.de/
蛋白质的序列分析及结构预测
DNA sequence Protein sequence Protein structure Protein function
ห้องสมุดไป่ตู้
一、蛋白质数据库介绍二、蛋白质序列分析三、蛋白质结构预测四、应用分子设计
1. 蛋白质序列数据库
（1）PIR(protein information resource, PIR)和PSD (protein sequence database, PSD) /pirwww
3. 蛋白质结构数据库
PDB( protein data bank , PDB) /pdb/
PDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物大分子结构数据, 主要是蛋白质结构数据, 这些数据来源于几乎全世界所有从事生物大分子结构研究的研究机构, 并由RCSB 维护和注释。
• PROSITE 数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型, 并能依据这些特征属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族, 即使在蛋白质序列相似性很低的情况下, 也可以通过搜索隐含的功能结构模体(motif)来鉴定, 因此是有效的序列分析数据库。
数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等, 注释中包括蛋白质的功能、转录后修饰位点、特殊位点和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、序列变异体等信息。
2. 模体以及结构域数据库
➢ 模体数据库
（1）PROSITE 蛋白质家族及结构域数据库 ( /prosite/ )
Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网址是: /Software/Pfam/index.shtml。
(2) 蛋白质结构域数据库ProDom http://prodes.toulouse.inra.fr/prodom/doc/prodom.html
串联质谱仪的组合方式：
(1) 磁分析器-静电分析器-磁分析器 (2) 静电分析器-磁分析器-静电分析器 (3) 三重四极滤质器质谱仪 (4) 混合式串联质谱仪，如MA-ESA-Q-Q。实现串联质谱有空间串联和时间串联两种方式。
优点：
• 可以避免底物分子产生的干扰，大大降低背景噪音。 • 其次，可使分子离子通过与反应气的碰撞来产生断裂。 • 因此能提供更多的结构信息，所以串联质谱特别适合于复杂组分体系且干扰严重的样品中低含量组分分析测定，具有比GC-MS和LC-MS等一级质谱更高的选择性和灵敏度。
4.蛋白质结构分类数据库
(1) CATH 数据库 /bsm/cathnew/index.html
(2) SCOP 蛋白质结构分类数据库( structural classification of protein database,SCOP) /scop/index.html
② MotifScan 用于查找未知序列中所有可能的已知结构组件, 数据库包括PROSITE序列表谱、PROSITE 模式、Pfam 收集的隐马尔可夫模式( HMM)。
模体数据库
(2) PRINTS Fingerprint Database /dbrowser/PRINTS/
• PROSITE 中涉及的序列模式包括酶的催化位点、配体结合位点、金属离子结合位点、二硫键、小分子或者蛋白质结合区域等, 此外PROSITE 还包括由多序列比对构建的序列表谱 ( profile) , 能更敏感地发现序列中的信息。
PROSITE同时数据库提供了序列分析工具:
① ScanProsite 是用于搜索所提交的序列数据是否包含 PROSITE 数据库中的序列模式或者SWISSPROT 数据库中已提交的序列模式;

e商务文档

蛋白质的序列分析及结构预测

相关文档推荐：