当前位置:文档之家› 6 蛋白组相关数据库及使用

6 蛋白组相关数据库及使用


Protein – 某一蛋白信息
Protein – 某一蛋白信息
Protein – 某一蛋白信息
Protein – 某一蛋白信息
Protein – 某一蛋白信息 – FASTA格式
CDD – Conserved Domain Database
transferrin
CDD – transferrin
PIR提供三种类型的检索服务: 一是基于文本的交互式查询, 用户通过关键字进行数据查询。 二是标准的序列相似性搜索, 包括BLAST、FastA等。
三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。
2、SWISS-PROT
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的
• 一种是隐式序列信息(implicit sequence)
PDB的隐式序列即为立体化学数据,包括每 个原子的名称和原子的三维坐标。
GenBank - Structure
transferrin
GenBank – Structure - Transferrin
PDB文件 示意
HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR, NMR, 30 STRUCTURES COMPND MOL_ID: 1; COMPND 2 MOLECULE: TISSUE FACTOR PATHWAY INHIBITOR; 。。。。。。 COMPND 8 BIOLOGICAL_UNIT: MONOMER SOURCE MOL_ID: 1; 。。。。。。 SOURCE 7 EXPRESSION_SYSTEM_PLASMID: PFLAG KEYWDS HYDROLASE, INHIBITOR, COAGULATION EXPDTA NMR, 30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN, 。。。。。。 REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION 。。。。。。 REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1 111 NOT IN ATOMS LIST REMARK 999 1ADZ SWS P10646 183 304 NOT IN ATOMS LIST REMARK 999 THE FIRST NINE RESIDUES ARE NOT PART OF THE TFPI DOMAIN II REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE CLONING VECTOR. DBREF 1ADZ 1 71 SWS P10646 TFPI_HUMAN 112 182 SEQADV 1ADZ ASP 1 SWS P10646 ILE 112 ENGINEERED SEQADV 1ADZ TYR 2 SWS P10646 ILE 113 ENGINEERED SEQRES 1 71 ASP TYR LYS ASP ASP ASP ASP LYS LEU LYS PRO ASP PHE SEQRES 2 71 CYS PHE LEU GLU GLU ASP PRO GLY ILE CYS ARG GLY TYR SEQRES 3 71 ILE THR ARG TYR PHE TYR ASN ASN GLN THR LYS GLN CYS SEQRES 4 71 GLU ARG PHE LYS TYR GLY GLY CYS LEU GLY ASN MET ASN SEQRES 5 71 ASN PHE GLU THR LEU GLU GLU CYS LYS ASN ILE CYS GLU SEQRES 6 71 ASP GLY PRO ASN GLY PHE HELIX 1 1 ASP 12 PHE 15 5 HELIX 2 2 ASN 34 THR 36 5 HELIX 3 3 LEU 57 ILE 63 1 SHEET 1 A 2 ARG 29 ASN 33 0 SHEET 2 A 2 GLN 38 PHE 42 -1 N PHE 42 O ARG 29 CRYST1 1.000 1.000 1.000 90.00 90.00 90.00 P 1 1
蛋白质组相关数据库
第一节 蛋白质序列数据库
1、PIR(Protein Information Resource)
/pirwww/
• 目的: 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。 • 它是一个全面的、经过注释的、非冗余的蛋白 质序列数据库。 • 所有序列数据都经过整理,超过99%的序列已 按蛋白质家族分类,一半以上还按蛋白质超家 族进行了分类。
How to search?
NCBI Homepage
选择某个子数据库 ↓ 空搜索 ↓ 直接进入该子库的主页
Genbank - Protein Homepage
AGGF1
某个蛋白
某个疾病
某个生物学过程
其他特别主题
Protein – AGGF1
Protein – development
development
除了蛋白质序列数据之外,PIR还包含以下信息:
(1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻 译后处理、活化等; (4)序列中相关的位点、功能区域。
蛋白质知识整合数据库 蛋白质家族分类系统 蛋白质序列数据库 非冗余的参考性蛋白数据库 通用蛋白质数据库
SWISS-PROT中的数据来源于不同源地: (1)从核酸数据库经过翻译推导而来; (2)从蛋白质数据库PIR挑选出合适的数据; (3)从科学文献中摘录; (4)研究人员直接提交的蛋白质序列数据
SWISS-PROT有三个明显的特点 :
(1)注释
在SWISS-PROT中,数据分为核心数据和注释两大类。 核心数据包括: 序列数据、参考文献、分类信息(蛋白质生物来源的描述) 注释包括: (A)蛋白质的功能描述; (B)翻译后修饰; (C)域和功能位点,如钙结合区域、ATP结合位点等; (D)蛋白质的二级结构; (E)蛋白质的四级结构,如同构二聚体、异构三聚体等; (F)与其它蛋白质的相似性; (G)由于缺乏该蛋白质而引起的疾病; (H)序列的矛盾、变化等。
• 提交序列数据
(a)编辑电子表格 (b) 利用Authorin程序 (c)WWW服务器
• 使用SWISS-PROT
(a)CD-ROM形式 (b)ftp服务器 (c)Gopher服务器 (d)WWW服务器(SRS)
• 与序列相关的操作
(a)序列查询 (b)搜索同源蛋白质序列
3. TrEMBL
TrEMBL (/trembl/index.html) 是与 SWISS-PROT相关的一个数据库。 包含从EMBL核酸数据库中根据编码序列(CDS)翻译而 得到的蛋白质序列,并且这些序列尚未集成到SWISSPROT数据库中。 TrEMBL有两个部分: (1)SP-TrEMBL(SWISS-PROT TrEMBL) 包含最终将要集成到SWISS-PROT的数据,所有的SPTrEMBL 序列都已被赋予SWISS-PROT的 登录号。 (2)REM-TrEMBL(REMaining TrEMBL) 包括所有不准备放入SWISS-PROT的数据,因此这部分 数据都没有登录号。
(2)最小冗余
• 尽量将相关的数据归并,降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾,则在相应序列特征表 中加以注释。
(3)与其它数据库的连接
对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。
2、蛋白质结构分类数据库SCOP
• SCOP数据库 ( /scop/) 的目标是提供关于已知结构的蛋白质之间结构和进化 关系的详细描述,包括蛋白质结构数据库PDB中的 所有条目。 SCOP数据库除了提供蛋白质结构和进化关系信息外, 对于每一个蛋白质还包括下述信息:到PDB的连接, 序列,参考文献,结构的图像等。 可以按结构和进化关系对蛋白质分类,分类结果是一 个具有层次结构的树,其主要的层次是家族、超家族 和折叠:
• SRS有三种检索方式:快速检索、标准检索和批量检索。
SRS开始页面
SRS快速文本检索窗口
SRS检索结果页面显示的检 索结果
SRS蛋白质记录详细内容页 面
SRS蛋白质序列显示窗口
SRS标准检索页面
SRS标准检索页面检索基因名为“KRAS”蛋白序列输入示意图
SRS标准检索结果输出页面
蛋白质数据仓库UniProt 包括:
Swiss-Prot TrEMBL PIR
用户可以通过文本查询数据库,可以利用 Bபைடு நூலகம்AST程序搜索数据库,也可以直接通过FTP 下载数据。
UniProt包含3个部分: (1)UniProt Knowledgebase(UniProt) 蛋白质序列、功能、分类、交叉引用等信息存取中心 (2)UniProt Non-redundant Reference(UniRef)数据库 将密切相关的蛋白质序列组合到一条记录中 以便提高搜索速度; (3)UniProt Archive(UniParc) 资源库,记录所有蛋白质序列的历史。
相关主题