当前位置:文档之家› 生物信息学 生物信息数据库及其信息检索

生物信息学 生物信息数据库及其信息检索


蛋白质-蛋白质相互作用数据库 DIP(/) 由实验验证的蛋白质-蛋白质相互作用数据,包括蛋白质的信息、相互作用的信 息和检测相互作用的实验技术 IntAct(/intact ) 提供用于蛋白质相互作用数据存储、展示和分析的开源数据库和工具包,可对相 互作用数据在网页上进行文本和图像的展示,允许用户通过GO注释或InterPro结 构域注释进行网络的扩充 代谢网络和信号途径 KEGG大百科(http://www.genome.ad.jp/kegg/ ) 系统分析基因功能、联系基因组信息和功能信息的知识库,GENES收录完整和 部分测序的基因组序列;PATHWAY数据库存储更高级的功能信息,包括图解的 细胞生化过程和同系保守的子通路等信息; LIGAND数据库收录关于化学物质、 酶分子和酶反应等信息。
核酸序列数据库 GenBank( /Genbank ) EMBL( /embl/ ) DDBJ ( http://www.ddbj.nig.ac.jp/ )
三个数据库每天互相交换数据 GenBank可通过NCBI的检索系统Entrez获取, Entrez集成来自主要DNA和蛋 白序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息 其他各种专业核酸数据库 A.非冗余参考序列数据库RefSeq B.密码子使用数据库Codon Usage Database CUTG C.基因可变剪接数据库ASDB D.转录因子数据库TRANSFAC
亚细胞定位数据库 PSORTdb(/ ) DBSubLoc(/dbsubloc.html ) 膜蛋白质数据库TMPDB(http://bioinfo.si.hirosaki-u.ac.jp/~TMPDB/) 线粒体蛋白质数据库MitoP2(http://www.mitop.de:8080/mitop2/) 蛋白翻译后修饰 dbPTM(.tw/ ) 磷酸化、糖基化和硫修饰,也收录和蛋白质翻译后修饰相关的生物信息。 O-GlycBase(http://www.cbs.dtu.dk/databases/OGLYCBASE/) 只收录O糖基化数据 PhosphoBase(/) 只收录磷酸化位点的数据 RESID(/RESID/) 收录蛋白质修饰的注释和结构的数据
plasmids viruses bacteria fungi plants algae insects mollusks bony fish amphibians reptiles birds mammals
104 105 106 107 108 109 1010 1011
蛋白质序列数据库 UniProt() 由Swiss-Prot、TrEMBL和PIR蛋白质数据库联合构建,提供蛋白质序列和功能注 释的核心资源。由三个子库组成:(1)UniProtKB,知识库(2)UniRef:参考 簇(3)UniParc,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息 。 IPI (/IPI/ ) 国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白的策略而 构建的参考数据库,月更新,整合国际上主要的蛋白质数据库(SwissProt, Refseq,PIR,TrEMBL,RefSeq,Ensembl,H-Inv DB翻译的蛋白数据),整 合过程中,直接接受手工注释结果。 Nr( /refseq/ ) NCBI构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的gi号, 并将序列完全一致的非冗余蛋白质合并成簇。
序列数据库 结构数据库 功能数据库 其ws、Linux或 Mac等操作系统
肤浅的百姓工具
一、序列数据库
主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达 序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物学 实验中测序获得的核酸和蛋白质序列。 基因组序列数据库: Genome Database(GDB)数据库 ( / ) 包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析。由EMBL - EBI和 Sanger研究所联合开发。 UCSC Genome Browser (/) 加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,以及主要模式生物的基 因组数据。
第三章 生物信息数据库及其信息检索
生物科学与技术学院
本章主要内容
▪ 生物信息学数据库类型 ▪ 序列数据库 ▪ 结构数据库 ▪ 功能数据库 ▪ 其它专业数据库
▪ 生物信息学数据库的检索 ▪ 检索方法概述 ▪ 检索实践和案例
生物信息学数据库的地位和作用
经典生物医学实验
大规模组学实验
大量零碎数据
海量组学数据
elegans
Borrelia burgorferi
Plasmodium falciparum
Borrelia burgorferi
Aquifex aeolicus
Neisseria meningitidis Z2491
Mycobacteriu m tuberculosis
Genome sizes in nucleotide pairs (base-pairs)
RefSeq
TATAGCCG AGCTCCGATA CCGATGACAA
Genome Assembly
GenBank
UniGene
Algorithms
GenBank中测序最多的20个物种
yticum
Bacillus subtilis
Drosophila melanogaster
二、结构数据库
核酸和蛋白质的空间结构数据库,一般通过X射线衍射和核磁共振获得数据,也 有同源建模等计算方法获得。 结构数据库(核酸) NDB核酸结构数据库(/) 收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可通过ADIT (the AutoDep Input Tool)同时将结构存储到NDB和PDB中,提供序列号检索功能,可 以用NDB或PDB的ID号检索,结果包含核酸结构的简要信息和图片 Rfam数据库(/ ) RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非 编码RNA家族的变异模式
结构数据库(蛋白质) PDB(/pdb/ ) RCSB(Research Collaboratory for Structural Bioinformatics)专门用于处理和发 布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据 文件格式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物 大分子三维结构。 蛋白质结构分类数据库SCOP( /scop/ ) 包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系 MMDB NCBI的分子模型数据库。 NCBI蛋白结构数据库(/sites/entrez?db=structure/) 包括由x射线衍射和核磁共振实验得到的所有PDB生物分子三维结构,与原始的 PDB结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二 级结构衍生定义、与MEDLINE相匹配的引用、基于源自生物实体的蛋白质或核 酸链进行分类的分子匹配。
NCBI (National Center of Biotechnology Information) 美国国立生物技术信息中心
三大数据库之间的联系
Primary vs. Derivative Databases
Curators
Sequencing Centers
Labs
TATAGTACTCAGGCTACTGAGCTACTGAGCCG
数据收集整理
数据存储、注释
数据库
检索查询
理论分析
生物学研究 生物医学应用
生物信息学数据库类型
▪ 核酸研究(Nucleic Acids Research)杂志的每年第一期为生物信息学数据
库专刊,收录最主要的生物学相关数据库,归类并展示在
/nar/database/c/。
核酸序列数据库 RNA序列数据库 蛋白质序列数据库 结构数据库 基因组数据库(非脊椎动物) 代谢与信号通路数据库 人类与其他脊椎动物基因组 人类基因与疾病 微阵列数据库与其他基因表达数据库 蛋白质组资源 其他分子生物学数据库 细胞器数据库 植物数据库 免疫学数据库 细胞生物学数据库
生物信息学数 据库类型
Rickettsia prowazekii
Helicobacter pylori
Buchnerasp. APS
Escherichia coli
human
Arabidopsis
Thermotoga maritima
Thermoplasma acidophilum
mouse
Caenorhabitis
rat
反应通路(KEGG)
glycolysis pathway(糖 酵解)
京都基因与基因组百科全 书(Kyoto Encyclopedia of Genes and Genomes)
全细胞通路
四、其它专业数据库
人类基因和疾病数据库 OMIM(/sites/entrez?db=omim) 收录所有已知的遗传病、遗传性状和基因,除简略描述各种疾病的临床特征、诊 断、治疗和预防外,还提供致病基因的连锁关系、染色体定位、组织结构、动物 模型及其参考文献等信息dbSNP (/sites/entrez?db=SNP ) 收录已经识别的SNPs的数据库 HapMap Project() 收录了三大人群(非洲人,高加索人和亚洲人群)主要的变异模式,所选择的SNPs具 有相对代表性 CGED(http://lifesciencedb.jp/cged/) 收录多种癌症的临床和基因表达数据,更新到2007年
基于电泳和生物质谱的蛋白质组数据库 SWISS-2DPAGE(/ch2d/) 收录各种双向电泳或SDS的电泳图,并提供蛋白在电泳图中的位置及其信息 PRIDE(/pride/) 数据库收集国际蛋白质组计划所产出的鉴定结果数据 PeptideAtlas(/) 收录大规模LC-MS/MS实验鉴定的蛋白信息,并将信息匹配到Ensembl数据库 dbLEP() 为肝脏蛋白质组计划设计,提供鉴定结果及可追溯的信息,包括可供评估结果质 量的鉴定肽段数和质谱图谱等,同时还提供大量的注释信息,更新到2007年
相关主题