当前位置:文档之家› ncbi数据库检索解读

ncbi数据库检索解读


收集并储存大分子结构信息,部分来源于PDB
提供并及时更新后生生物的全基因组序列以及最为精确的注释. 是一个蛋白质信息最为准确的蛋白质数据库, 它所提供的蛋白质信息有着最详尽的注释和 最少的冗余..
5 UniProtKB\Swiss-prot
2.2.4 SRS 检索实例
已知BPMV的名字,查询其基因组的信息,核酸序 列信息,蛋白质序列信息和结构信息
第二章 数据库检索
2.1 综合性数据库 NCBI
2.1.1 NCBI简介
美国参议员Claude Pepper率先意识到信息计算机化过程 方法对指导生物医学研究的重要性,发起了在1988年11月4日 建立国立生物技术信息中心的立法. (National Center for Biotechnology Information , NCBI) . NCBI隶属于国立医学图书馆( National Library of Medicing, NLM)。NLM在创立和维护生物医学数据库方面有 丰富的经验。
包含用于群体进化或变异研究的比对序列
准确的基因表达谱数据和大规模的分子实验数据
公众医学信息中心,是NLM在生命科学领域 Central数据库 期刊文献的数字存档 医学主题5 Bookshelf 数据库
16 OMIM 数据库
主要着眼于可遗传或遗传性的基因疾病,包括文献, 序列记录,染色体定位图谱及相关的数据库的链接
7 uniSTS数据库 8 基因数据库 9 UniGene数据库
可通过基因名称,同义词,编号,出版物,染色体号等属性 寻找基因 GenBank 中基因序列的集合
10 SNP数据库 11 PopSet 12 GEO数据库 13 PubMed
用于存储包括单核苷酸替换,一两个碱基的插入 或缺失等多态性信息
4 结构数据库
又称为分子模型数据库MMDB,包含从晶体结构和核磁 共振实验中确定下来的蛋白质等大分子结构信息,主要 来源于PDB,使用软件浏览结构
5 三维结构域数据库 6 保守域数据库
包含来自Entrez结构数据库的蛋白质结构域
蛋白质结构域数据库,从Pfam,SMART,COG数据 库中获得数据. 是一个整合的,非冗余的STS数据库
/
NCBI的任务
开发新的信息技术,来帮助理解控制健康和疾病 的基本分子和遗传过程 1 建立自动化系统用于储存和分析分子生物学, 生物化学和遗传学方面的知识 2 为研究人员和医学团体使用这些数据库和软 件提供便利 3 在国家和国际范围内搜集先进的生物技术信 息,为分析生物重要分子的结构和功能提供先进 的基于计算机的信息分析处理方案
2.1.3 Entrez 简介
是一个全局的生物医学搜索引擎,它可以检查的数据库主要包括 3类: 文献数据库: PubMed ,PubMedCentral,Journals,Books,OMIM,OMIA. 序列数据库: Nucleotide,Protein,Genome,Structure,SNP 其它数据库: Taxonomy, Gene,UniGene,HomoloGene, Conserved Domains,3D Domains, UniSTS,PopSet, GEO Profiles, GEO Datasets, PubChem BioAssay, PubChem Compound,PubChem Substance,Cancer Chromosomes, Probe,MeSH,Journals,NLM Catalog
5序列的下载
2.2 综合性数据库EMBL- EBI
2.2.1 EBI简介
EBI(欧洲生物信息学中心)全称是European Bioinformatics Institute,是一个非盈利性的学术机构 ,是欧洲分子生物学实验室(EMBL,全称是European Molecular Biology Laboratory)的一部分。它的主要 任务是建立、维护和提供生物学数据库以及信息学服务, 从而支持生物学数据的存放和进一步挖掘,位于德国海德 尔堡,是世界上著名的生命科学研究机构。
2.1.2 NCBI数据库介绍
1 全核苷酸数据库
Expression sequence tag ,EST, genome survey sequence,GSS, orenucleotide
2 蛋白质数据库
翻译DNA所得
PIR,SWISS-PROT PDB
3 基因组数据库
已测序物种的基因组视图,染色体完整序列图, 遗传图和物理图
提供免费数据和生物信息学服务 生物信息学研究 提供生物信息学培训 将技术应用于产业
2.2.2 EBI数据库简介
1 核酸序列数据库 与GenBank DDBJ同步 2 UniProt Knowledgebase 3 大分子结构数据库 4 Ensembl
通用蛋白质资源数据库, 最全面的储 存蛋白质信息的数据库
GenBank采用GBFF格式 实例: E. coli k-12全基因组序列文件
描述符
长度
生物分子类型
形状
分类码
数据第一次被公开的日期
2.1.4 Entrez 检索实例
已知菜豆斑驳病毒(bean pod mottle virus, BPMV)的 名字,查询BPMV的基因组信息,核酸序列信息,蛋白序列信 息和结构信息
BPMV
1 Genome数据库查询结果
2核酸数据库查询结果
3蛋白质数据库查询结果
4 结构数据库查询结果
SRS系统每次只能查询一个数据库
Genome数据库查询结果
数据库格式简介
历史原因:没有完全统一的数据库格式; 了解所用数据库格式的重要性 一般由两部分组成: 文字注释 内容(序列,……)
例子:EMBL和GenBank数据库的格式
EMBL和GenBank数据库的主要内容和格式
序列名称、长度、日期 序列说明、编号、版本号 物种来源、学名、分类学位置 相关文献作者、题目、刊物、日期 序列特征表 碱基组成 序列(每行60个碱基)
相关主题