当前位置:文档之家› 蛋白质的序列分析及结构预测

蛋白质的序列分析及结构预测


二、蛋白质的序列分析
1. 蛋白质序列信息的获取 2. 蛋白质序列分析
1. 蛋白质序列信息的获取
(1) 直接测序 (2) 翻译编码的DNA序列 ORF Finder (3)在数据库中搜索 • 运用ID 号、入口号、条目号等搜索。 • 运用关键词搜索 • 其他方式搜索。如可以通过引用序列的文献、
序列的作者、序列提交的日期等进行搜索。
这个数据库包含1 500 个蛋白质指纹图谱, 编码9 136 个单一模体。
(3) BLOCKS ( / ) BLOCKS 是通过一些高度保守的蛋白质区域比对出来
的无空位的片段。
➢ 蛋白质结构域数据库
(1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库 Pfam( protein families database of alignments and HMMs)
PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数 据库。PIR-PSD 的序列来自于将GenBank/ EMBL/ DDBJ 三大数据库的编码序 列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。
(2)SWISS-PROT/ TrEMBL数据库 /swissprot
1. 蛋白质序列信息的获取
(1)直接测序
e.g. Protein Sequencing and Identification by Tandem Mass Spectrometry,
即用串联质谱仪测序
串联质谱及其作用
• 两个或更多的质谱连接在一起,称为串联质谱。
•最简单的串联质谱(MS|MS)由两个质谱串联而成, 其中第一个质量分析器(MS1)将离子预分离或加 能量修饰,由第二级质量分析器(MS2)分析结果。
(3) SMART SMART 是一个简单的结构研究工具, 可对可转移的遗传因子 进行鉴定和注解, 以及分析结构域结构, 可以检测出500 多个 参与信号传导、胞外和染色体相关蛋白质的结构域家族, 对这 些结构域又在系统进化树分布、功能分类、三级结构和重要 的功能残基方面做了注解。 http://smart.embl-heidelberg.de/
蛋白质的序列分析及结构预测
DNA sequence Protein sequence Protein structure Protein function
ห้องสมุดไป่ตู้
一、蛋白质数据库介绍 二、蛋白质序列分析 三、蛋白质结构预测 四、应用 分子设计
1. 蛋白质序列数据库
(1)PIR(protein information resource, PIR)和PSD (protein sequence database, PSD) /pirwww
3. 蛋白质结构数据库
PDB( protein data bank , PDB) /pdb/
PDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病 毒等生物大分子结构数据, 主要是蛋白质结构数据, 这些数据来源于几乎全世界所有从事生物大分子结 构研究的研究机构, 并由RCSB 维护和注释。
• PROSITE 数据库收集了有显著生物学意义的蛋白质位点序 列、蛋白质特征序列谱库以及序列模型, 并能依据这些特征属 性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白 质家族, 即使在蛋白质序列相似性很低的情况下, 也可以通过 搜索隐含的功能结构模体(motif)来鉴定, 因此是有效的序列分 析数据库。
数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献信息、 分类学信息、注释等, 注释中包括蛋白质的功能、转录后修饰位点、特殊位点 和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、 序列变异体等信息。
2. 模体以及结构域数据库
➢ 模体数据库
(1)PROSITE 蛋白质家族及结构域数据库 ( /prosite/ )
Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网 址是: /Software/Pfam/index.shtml。
(2) 蛋白质结构域数据库ProDom http://prodes.toulouse.inra.fr/prodom/doc/prodom.html
串联质谱仪的组合方式:
(1) 磁分析器-静电分析器-磁分析器 (2) 静电分析器-磁分析器-静电分析器 (3) 三重四极滤质器质谱仪 (4) 混合式串联质谱仪,如MA-ESA-Q-Q。实现串 联质谱有空间串联和时间串联两种方式。
优点:
• 可以避免底物分子产生的干扰,大大降低背景噪音。 • 其次,可使分子离子通过与反应气的碰撞来产生断裂。 • 因此能提供更多的结构信息,所以串联质谱特别适合 于复杂组分体系且干扰严重的样品中低含量组分分析测 定,具有比GC-MS和LC-MS等一级质谱更高的选择性和灵 敏度。
4.蛋白质结构分类数据库
(1) CATH 数据库 /bsm/cathnew/index.html
(2) SCOP 蛋白质结构分类数据库( structural classification of protein database,SCOP) /scop/index.html
② MotifScan 用于查找未知序列中所有可能的已知结 构组件, 数据库包括PROSITE序列表谱、PROSITE 模式、Pfam 收集的隐马尔可夫模式( HMM)。
模体数据库
(2) PRINTS Fingerprint Database /dbrowser/PRINTS/
• PROSITE 中涉及的序列模式包括酶的催化位点、配体结合 位点、金属离子结合位点、二硫键、小分子或者蛋白质结合 区域等, 此外PROSITE 还包括由多序列比对构建的序列表谱 ( profile) , 能更敏感地发现序列中的信息。
PROSITE同时数据库提供了序列分析工具:
① ScanProsite 是用于搜索所提交的序列数据是否包 含 PROSITE 数据库中的序列模式或者SWISSPROT 数据库中已提交的序列模式;
相关主题