当前位置:文档之家› 生物信息学蛋白质序列数据库包其郁

生物信息学蛋白质序列数据库包其郁




5. Uni-Pro 数据检索
七、疾病相关基因数据库
(1)OMIM:

OMIM(Online Mendelian Inheritance in Man)是美 国Jonhs Hopkins大学Dr. Victor A. McKusick等人建 立和编辑的有关人类基因和遗传病目录的电子版。 于本世纪60年代创立,旨在为临床医师和遗传病 研究工作者提供服务。 OMIM包含大量的及时更新的有关人类基因及其 突变序列数据和遗传病的临床特征等信息和相关 参考文献。



八、蛋白质数据分析
由于传统的用X光晶体衍射和核磁共振 技术测定蛋白质的三维结构、用生化方法 研究蛋白质功能的效率不高,无法适应由 基因组测序所带来的蛋白质序列数量飞速 增长的需要,近年来,许多科学家致力于 用理论计算的方法预测蛋白质的三维结构 和功能,提高蛋白质功能研究的效率,并 取得了一定的成果。

The UniProt Knowledgebase (UniProtKB)


The UniProt Knowledgebase continues the work of Swiss-Prot, TrEMBL and PIR-PSD by providing an expertly and richly curated protein database Consisting of two sections. UniProtKB/Swiss-Prot UniProtKB/TrEMBL.
Biblioteka OMIM数据库基本信息
MIM----概述、克隆、 基因结构、物理图、 基因功能、 生化特征、 分子遗传学、 动物模型、 等位突变、 参考文献、 编辑史等. Eztrez gene ----分类、 参考序列、蛋白质等 Link out


P53基因的OMIM检索结果:
(2)GeneCards
UniProt Reference Clusters (UniRef)

TheUniProt Reference Clusters (UniRef) provide clustered sets of sequences from UniProtKB and selected UniParc records. It provide complete coverage of sequence space at several resolutions and speed similarity searches via sequence space compression by merging sequences that are 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) identical. UniRef90 and UniRef50 yield a database size reduction of approximately 40% and 65%, respectively, providing significantly faster sequence searches.

Pfam包含常见的蛋白质功能域和蛋白质家 族,可浏览蛋白质家族的多序列比对结果、 蛋白质功能域的立体构造、蛋白质家族的 物种分布等。 PANTHER主要包含蛋白质家族的功能分类 信息,一个大的蛋白质家族进一步按功能 上的差异被归纳成一些次家族,显示蛋白 质家族不同成员的特定功能的差异,使蛋 白质家族的功能表达更准确。
1. Swiss-Prot

SWISS-PROT由瑞士日内瓦大学医学生化系于1978年创建,后来与欧 洲分子生物学实验室合作,由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,SIB)和欧洲生物信息学研究所(EBI)共同维护和 管理现已整合进UniProtKB/Swiss-Prot。

2. 蛋白质功能预测

InterPro数据库与蛋白质功能预测
蛋白质的功能分类 蛋白质序列的代谢途径分析
(1) InterPro数据库 与蛋白质功能预测
• 由EBI,SIB,Sanger Institute
等十多家单位维护
• 结合了UniProt、PROSITE, Pfam, PRINTS, ProDom、 SMART,PANTHER和 Gene3D 等数据库
六、蛋白质序列数据库
UniPro

Swiss-Prot
TrEMBL


PIR-PSD
The mission of UniProt is to provide the scientific community with a comprehensive, high-quality and freely accessible resource of protein sequence and functional information.
d. SWISS-PROT中尽可能减少冗余序列 e. 与其它30多个数据库建立了交叉引用,其 中包括核酸序列数据库、蛋白质序列数据 库和蛋白质结构数据库等。 f. 利用序列检索系统(SRS)可以方便地检 索SWISS-PROT和其它EBI的数据库。
2. TrEMBL
TrEMBL数据库建于1995年,意为 “Translation from EMBL”。
SMART 由两部分组成,普通SMART(Normal SMART)收集了 Swiss-Prot, SP-TrEMBL 和 stable Ensembl proteomes的蛋白 质数据,而基因组SMART(Genomic SMART)仅包含全 基因组测序的生物基因组的蛋白质信息。
(2) 蛋 白 质 的 功 能 分 类
InterPro功能
收集了已知蛋白质家族、蛋白质功能域 和功能位点的信息,可用于未知蛋白质序 列的: 分类( superfamily, family and subfamily levels ) 功能域 重复序列 重要位点 其他的包括 GO terms等深度注释


不同数据库在数据组成上有所不同

4. UniPro

蛋白质信息资源(PIR)、欧洲生物信息学 研究所(EBI)和瑞士生物信息学研究所 (SIB)合作,于2002年共同组建世界蛋白 质资源(the Universal Protein Resource, UniPro)。 UniPro把Swiss-Prot、TrEMBL和PIR等蛋白 质数据库整合在一起,是目前国际上最全 面的蛋白质信息库。
由蛋白质信息资源(PIR)、慕尼黑蛋白质序 列信息中心(MIPS)和日本国际蛋白质序列 数据库(JIPID)共同维护, PIR是最早的数 据库,现已并入UniProt Knowledgebase


是一个全面的、非冗余的、经过专家注释的公共 蛋白质序列数据库。PIR-PSD收集已发表的蛋白 质序列、来源、参考文献和特征信息等,她的注 释中还包括一些原始递交记录中没有的相关信息, 如在遗传图谱的位置、内含子位置、以及和其他 序列、结构、基因组和引文数据库(如Medline、 PDB和TIGR等)的相互参照 PIR-PSD的另一个重要特征是其对蛋白质超家族 的分类,提供序列的等级聚类信息,揭示序列间 的进化关系。
该数据库采用SwissPro数据库格式,其数据来 源于:

EMBL核酸序列数据库(或GenBank、DDBJ)中所有编码 序列经计算机程序自动翻译的蛋白质 从文献中查到的 或向SWISS-PROT递交的并未整合到SWISS-PROT的蛋白质 序列
3. PIR-PSD

蛋白质信息资源-国际蛋白质序列数据库 (the Protein Information Resource-International Protein Sequence Database, PIR-PSD


UniProt Archive (UniParc)

Capture all publicly available protein sequence data and contains all the protein sequences from the main publicly available protein sequence databases. UniParc is the most comprehensive publicly accessible non-redundant protein sequence database.
SWISS-PROT的特点
a. 所有序列条目都经过有经验的分子生物学家和蛋白 质化学家通过计算机工具并查阅有关文献资料仔细核 实。
b. 每个条目包含条目基本信息、分类信息 (描述蛋白质的生物来源) 、引用文献信息、 注释、蛋白质序列等(如:ampG)。
c. 蛋白质注释
包括蛋白质的功能、翻译后修饰(如糖基化和磷酸 化)、结构域和结合位点、二级结构(如α- 螺旋和β- 片 层)、四级结构(如同聚体和异聚体)、与其它蛋白质序 列的相似性、蛋白质序列残缺与疾病的关系、序列冲突和 变异体等信息。

ProDom家族 是由UniProt Knowledge Database 中自动生成的综合性的蛋 白质功能域家族数据库。


Visualization of ProDom domains on 3D structures; coupling of ProDom analysis with the Geno3D homology modelling server; ProDom-SG, a ProDom-based server dedicated to the selection of candidate proteins for structural genomics.
相关主题