MRS
GI number Accession number
版本号
Definition: 标题
/mrs
GenBank数据主要字段及其含义
字段
LOCUS ACCESSION DEFINITION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL COMMENTS MEDLINE FEATURES BASE COUNT ORIGIN //
二 级 数 据 库
/mrs
生物信息数据库的产生
染色体 基因组作图 核酸 序列测定 蛋白质序列 蛋白质 结构测定 蛋白质结构 数据库
/mrs
基因组图谱
基因组 数据库 生 物 信 息 学 数 据 库 工 具
ftp:///genbank/gbrel.txt
/Genbank/genbankstats
/mrs
GenBank收录的物种
/Taxonomy/txstat.cgi
MRS: Maarten’s Retrieval System
They are the Googles of the biological database world
/mrs
主要内容
1
2 3 MRS数据库检索系统介绍 MRS数据库检索系统的使用 MRS数据库检索系统的Blast功能 操作演示 问题讨论
/mrs
2.1 Swiss-Prot
SwissProt数据来源:
(1)从核酸数据库经过翻译推导而来; (2)从蛋白质数据库PIR挑选出合适的数据; (3)从科学文献中摘录;
(4)研究人员直接提交的蛋白质序列数据。
/mrs
/mrs
2.1 Swiss-Prot
所有条目都经过有经验的分子生物学家和蛋白质化 学家通过计算机工具并查阅有关文献资料仔细核实, 因此又称蛋白质专家库(ExPASy)。
SwissProt涉及已知蛋白质的功能、序列(包括 一些蛋白质片断序列)、结构域(如跨膜区等) 结构、翻译后修饰(如磷酸化与去磷酸化等) 及其位点、突变体等。 SwissProt蛋白质序列数据库在国际上比较权威, 一般任何蛋白质序列数据搜寻和比较都应从 SwissProt开始。
DNA序列
核酸序列 数据库
二 级 数 据 库 复 合 数 据 库
蛋白质序列 数据库
蛋白质结构
生物数据库的几个明显特征
数据库的更新速度不断加快,数据量呈指 数增长趋势 数据库使用频率增长更快
数据库的复杂程度不断增加
数据库网络化
面向应用
先进的软硬件配置
/mrs
/mrs
GenBank中20种测序最多的物种
mrs
(11年4月15日 第183.0版)
ftp:///genbank/gbrel.txt
Genbank数据格式
序列长度 数据类型
/mrs
数据库分类介绍2 蛋白质序列及相关数据库:
SwissProt: 经过注释的蛋白质序列数据库 trEMBL: 计算机注释的蛋白质数据库 UniProt: 整合的蛋白资源数据库 /
Interpro: 蛋白质结构域和功能位点的整合 数据库 /interpro/
/mrs
1.2 EMBL简介
EMBL数据库是,由德国海德堡的欧洲分子生物学实 验室(EMBL)创建,现由英国的欧洲生物信息学研 究所(EBI)维护管理。 包括多个子库:
表达序列标签(ESTs)、病毒(Viruses)、噬菌体 (Bacteriophage)、原核生物(Prokaryotes)、真菌 (Fungi)、植物(Plants)、无脊椎动物 (Invertebrates)、脊椎动物(Vertebrates)、啮齿动物 (Rodents)、哺乳动物(Mammals)、人类 (Human)、细胞器(Organelles)、高通量基因组序 列(HTG)等。
解释
序列名称、性质描述 序列接受号 序列定义 关键词 来源种属 来源分类 参文条目 参文作者 参文题目 参文出处 交叉索引 MEDLINE号 序列性质表头数据 碱基数目 序列开始标志 序列终止标志
/mrs
Termination line
/Genbank/
/mrs
Genbank数据增长情况
Genetic Sequence Data Bank April 15 2011 , Release 183.0 126,551,501,141 bases, from 135,440,924 reported sequences
注释的详尽程度
支撑数据
数据质量 集成性
/mrs
生物信息数据库的分类
一级数据库:
数据库中的数据直接来源于 实验获得的原始数据,只经 过简单的归类整理和注释
生物信息学数据库
二级数据库:
对原始生物分子数据进行整 理、分类的结果,是在一级 数据库、实验数据和理论分 析的基础上针对特定的应用 目标而建立的。 一 级 数 据 库
MRS :整合的数据库检索系统
GeneBank
PDB
EMBL
MRS
Interpro
RefSeq
OMIM
Swiss-Prot
/mrs
MRS 目前整合的数据库
DBEST DSSP INTERPRO IPI
PROSITE
REBASE REFSEQ SPROT
2.2 TrEMBL
TrEMBL 是与SWISS-PROT相关的一个数据库。
包含从EMBL核酸数据库中根据编码序列(CDS)翻译而 得到的蛋白质序列,并且这些序列尚未集成到SWISSPROT数据库中。
TrEMBL有两个部分:
SP-TrEMBL(SWISS-PROT TrEMBL):包含最终将要集 成到SWISS-PROT的数据,所有的SP-TrEMBL 序列 都已被赋予SWISS-PROT的 登录号。 REM-TrEMBL(REMaining TrEMBL):包括所有不准备放 入SWISS-PROT的数据,因此这部分数据都没有登录 号。
目前整合了20多个重要的生物数据库,以后还将不断添加。
/mrs
数据库分类介绍1
核酸序列数据库:
Genbank:核酸序列数据库(美国生物技术信息中心)
/embl/
EMBL : 核酸序列数据库(欧洲生物信息学研究所)
/mrs
4
5
/mrs
什么是MRS?
MRS是可以通过互联网直接连接的在线生物数据检 索平台。此平台整合了多种生物数据库,能够实 现生物数据的方便、快捷检索。
特点:
多数据库整合 数据实时性好 方便快捷 开放性好,容易整合新的数据库
/mrs
/mrs
1.1 Genbank 简介
由位于马里兰州Bethesda的美国国立卫生 研究院(NIH)下属国立生物技术信息中心 (NCBI)建立和维护。
数据来源有三种:
直接来源于测序工作者提交的序列; 与其它数据机构协作交换的数据; 美国专利局提供的专利数据。
EMBL
ENZYME GenBank GO GOA GPCRDB HSSP
MIMIMAP
OMIM Oxford PDB PDBFinder2 PFAM PRINTS
TAXONOMY
TREMBL UNIGENE UNIPROT UNIUNIQ
通用检索系统
Search everywhere for everything
/mrs
生物学领域检索系统
Entrez:An integrated database search and retrieval system
SRS: Sequence Retrieval System
MRS数据库检索系统使用
第三军医大学生物信息中心
生物信息数据库
分子生物学 及相关领域研究人员 迅速获得最新实验数据
生物分子数据 高速增长
建立生物分子数据库
/mrs
对生物信息数据库的主要需求
时间性
1.5 面向基因聚类的数据库UniGene
UniGene试图通过计算机程序对GeneBank中的 序列数据进行适当处理,剔除冗余部分,将同一 基因的序列,包括EST序列片段搜集到一起,以 便研究基因的转录图谱。
每个UniGene群包含:
代表一个唯一基因的多个序列,附有该基因相关的信 息, 如基因表达的组织类型、定位图谱 除了基因的序列之外,还包括大量的EST序列。
/Genbank/
dbEST: 表达序列标签数据库
/dbEST/
Refseq: 参考序列数据库(专家审核)
/RefSeq/
UniGene: 非冗余的基因数据库 /entrez/query.fcgi?db=unigene
/mrs
EMBL网站
/mrs
三大核酸序列数据库的关系
/mrs
1.3 表达序列标签数据库dbEST
DbEST是GenBank的一个部分,该数据库包括不 同生物的EST序列数据及其它相关信息,主要是 从大量不同组织和器官得到的短mRNA片段。
/mrs
1.4 参考序列数据库RefSeq
提供校正的序列数据和相关的信息,给同 行提供使用的标准 专家审核的核酸和蛋白质数据,提供高质 量的,无冗余的,完整的序列信息;
包括基因组的DNA,转录成的RNA以及蛋白 质序列信息。
/mrs
含义
Identifier Accession number Description Keywords Organism(species) Organism(classification) Reference number Reference authors Reference title Reference location Database cross-reference Medline number Feature table header data