当前位置:文档之家› 第三讲:Uniprot蛋白数据库及其他蛋白质分析工具

第三讲:Uniprot蛋白数据库及其他蛋白质分析工具

第三讲
Uniprot蛋白数据库及其他蛋白质
分析工具
2013/03/19
Uniprot数据库•Uniprot(Universal protein resource)是蛋白质序列的联合数据库。

–SIB: Swiss Institute of Bioinformatics
–EBI: European Bioinformatics Institute
–PIR: Protein Information Resource
–2002年三家联合形成了Uniprot
Swiss‐Prot
•1986年建立
•低冗余度
•功能导向
•由Swiss Institute of Bioinformatics 和EBI共同建立并维护
TrEMBL •TrEMBL=Translation from EMBL •EBI建立并维护
•是一个自动数据库
•冗余度高,可信度低
UniprotKB
•部分经过专家注释的数据库
•具有很高的可信度
•包括两部分UniprotKB/Swiss‐Prot和UniprotKB/TrEMBL
•UniprotKB/Swiss‐Prot包括539,165条序列•UniprotKB/TrEMBL包括29,769,971 条序列•具有非冗余性
Uniparc
•非冗余性
•给予序列的特异性,非同一物种的相同序列被认为是同一个蛋白质
•每一条序列被給予一个特异的编号
Uniparc
•INSDC EMBL‐Bank/DDBJ/GenBank nucleotide sequence databases
•Ensembl
•European Patent Office (EPO)
•FlyBase
•H‐Invitational Database (H‐Inv)
•International Protein Index (IPI)
•Japan Patent Office (JPO)
•Protein Information Resource (PIR‐PSD)
•Protein Data Bank (PDB)
•Protein Research Foundation (PRF) RefSeq
•Saccharomyces Genome Database (SGD)
•The Arabidopsis Information Resource (TAIR)
•TROME
•US Patent Office (USPTO)
•UniProtKB/Swiss‐Prot, UniProtKB/Swiss‐Prot protein isoforms, UniProtKB/TrEMBL •Vertebrate and Genome Annotation Database (VEGA)
•WormBase
UniRef
•包括UniRef100,UniRef90和UniRef50
•分别包括了相似度为100%,90%和50%的序列的总和
UniMES
•UniMES是metagenomics和环境生物学的序列数据库
•其中的数据可能是未知的
•UniMES提供UniRef类似的聚类功能
Uniprot的应用
•在质谱领域有广泛的应用
–因为其序列的非冗余性
–举例:质谱分析
–举例:Pyruvate: ferredoxin oxidoreductase
subunit alpha from Pyrococcus furiosus
蛋白质的结构域‐‐二级库
• 根据序列比对的策略不同存在较多的蛋白质序 列二级库,比如ProSite,PRINT, ProDom, Pfam,  Gene3D,PANTHER, PIRSF,Tigrfams等等 • 目前诸多蛋白质序列二级库已经被整合到 Interpro数据库中 • 利用Interpro可以查找并鉴定蛋白质的结构 域,可能的功能基团以及预测其生理功能等 • 举例:查询actin‐like protein,找到其三维结构 和功能 • 举例:查询4Fe‐4S cluster binding site


蛋白质序列分析‐interproscan


蛋白质的保守结构域


• 举例:利用interpro分析gene symbol为 MA0658的蛋白质,并预测它可能结合什么 cofactor


pI和分子量的预测
• /compute_pi/


• 举例:预测大肠杆菌中WrbA的pI和分子量


对信号肽的预测
• SignalP 4.0 • http://www.cbs.dtu.dk/services/SignalP/ • 利用神经网络和HMM模型预测信号肽 • VKLIMFLLMVPLFSYLAAASLRVLSPNPASCDSPEL GYQCNSETTHTWGQYSPFFSVPSEISPSVPEGCR


对膜蛋白和跨膜区域的预测
• 一般来说是一个20AA长的alpha helix • TMpred • /software/TMPRED_f orm.html • TMHMM • http://www.cbs.dtu.dk/services/TMHMM/ • msyntslgls enivaalcyp vgwlsglffl llerknkfvr fhamqsvllf mpialfiflv awiptigwfi adgagmtaml lilipmymaf rgskfkipii gniaynfayg e


ExPASy
• SIB运作的一个蛋白质专业网站


蛋白质结构和功能的分析与预测
Blast寻找相似 蛋白功能 利用Uniprot 分析结构域 分析蛋白质 的位置 利用Interpro 分析结构域 分析蛋白质 的MW和pI 已知序列 阅读相似蛋 白的文献
提出蛋白质 功能的假说
已知名称
寻找序列

相关主题