当前位置:文档之家› 生物信息学 第三章 生物信息数据库及其信息检索 ppt课件

生物信息学 第三章 生物信息数据库及其信息检索 ppt课件

因组数据。
核酸序列数据库 GenBank( ) EMBL( ) DDBJ ( ) 三个数据库每天互相交换数据 GenBank可通过NCBI的检索系统Entrez获取, Entrez集成来自主要DNA和蛋白
序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息 其他各种专业核酸数据库 A.非冗余参考序列数据库RefSeq B.密码子使用数据库Codon Usage Database CUTG C.基因可变剪接数据库ASDB D.转录因子数据库TRANSFAC
生物信息学数 据库类型
序列数据库 结构数据库 功能数据库 其ws、Linux或 Mac等操作系统
肤浅的百姓工具
一、序列数据库
主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达 序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物 学实验中测序获得的核酸和蛋白质序列。
生物信息学 第三章 生物信息数据库 及其信息检索
第三章 生物信息数据库及其信息检索
本章主要内容
▪ 生物信息学数据库类型 ▪ 序列数据库 ▪ 结构数据库 ▪ 功能数据库 ▪ 其它专业数据库
▪ 生物信息学数据库的检索 ▪ 检索方法概述 ▪ 检索实践和案例
生物信息学数据库的地位和作用
经典生物医学实验
elegans
Borrelia burgorferi
Plasmodium falciparum
Borrelia burgorferi
Aquifex aeolicus
Neisseria meningitidis Z2491
Mycobacteriu m tuberculosis
Genome sizes in nucleotide pairs (base-pairs)
NCBI (National Center of Biotechnology Information) 美国国立生物技术信息中心
三大数据库之间的联系
Primary vs. Derivative Databases
Curators
Sequencing Centers
Labs
TATAGTCACTGAGCCTGATAGCCTGATAGCCG
结构数据库(蛋白质) PDB( ) RCSB(Research Collaboratory for Structural Bioinformatics)专门用于处理和发 布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据 文件格式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物 大分子三维结构。 蛋白质结构分类数据库SCOP( ) 包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系 MMDB NCBI的分子模型数据库。 NCBI蛋白结构数据库() 包括由x射线衍射和核磁共振实验得到的所有PDB生物分子三维结构,与原始的 PDB结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二 级结构衍生定义、与MEDLINE相匹配的引用、基于源自生物实体的蛋白质或核 酸链进行分类的分子匹配。
二、结构数据库
核酸和蛋白质的空间结构数据库,一般通过X射线衍射和核磁共振获得数据,也 有同源建模等计算方法获得。
结构数据库(核酸) NDB核酸结构数据库() 收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可通过ADIT (the
AutoDep Input Tool)同时将结构存储到NDB和PDB中,提供序列号检索功能, 可以用NDB或PDB的ID号检索,结果包含核酸结构的简要信息和图片 Rfam数据库( ) RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非 编码RNA家族的变异模式
大规模组学实验
大量零碎数据
海量组学数据
数据收集整理
数据存储、注释
检索查询
数据库
理论分析
生物学研究 生物医学应用
生物信息学数据库类型
▪ 核酸研究(Nucleic Acids Research)杂志的每年第一期为生物信息学数据
库专刊,收录最主要的生物学相关数据库,归类并展示在。
核酸序列数据库 RNA序列数据库 蛋白质序列数据库 结构数据库 基因组数据库(非脊椎动物) 代谢与信号通路数据库 人类与其他脊椎动物基因组 人类基因与疾病 微阵列数据库与其他基因表达数据库 蛋白质组资源 其他分子生物学数据库 细胞器数据库 植物数据库 免疫学数据库 细胞生物学数据库
RefSeq
TATAGCCG AGCTCCGATA CCGATGACAA
Genome Assembly
GenBank
UniGene
Algorithms
GenBank中测序最多的20个物种
模式生物与基因测序
Ureaplasma urealyticum
Bacillus subtilis
Drosophila melanogaster
Rickettsia prowazekii
Helicobacter pylori
Buchnerasp. APS
Escherichia coli
human
Arabidopsis
Thermotoga maritima
Thermoplasma acidophilum
mouse
Caenorhabitis
rat
plasmids viruses bacteria fungi plants alga inesects
mollusks bony fish amphibians
reptilesbirds Nhomakorabeamammals
104
105
106
107
108
109
1010 1011
蛋白质序列数据库 UniProt() 由Swiss-Prot、TrEMBL和PIR蛋白质数据库联合构建,提供蛋白质序列和功能注 释的核心资源。由三个子库组成:(1)UniProtKB,知识库(2)UniRef:参考 簇(3)UniParc,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息 。 IPI ( ) 国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白的策略而 构建的参考数据库,月更新,整合国际上主要的蛋白质数据库(SwissProt, Refseq,PIR,TrEMBL,RefSeq,Ensembl,H-Inv DB翻译的蛋白数据),整 合过程中,直接接受手工注释结果。 Nr( ) NCBI构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的gi号, 并将序列完全一致的非冗余蛋白质合并成簇。
基因组序列数据库: Genome Database(GDB)数据库 () 包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析。由EMBL - EBI和
Sanger研究所联合开发。 UCSC Genome Browser () 加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,以及主要模式生物的基
相关主题