生物信息数据库
22 November 2010
3
Database Growth
• Exponential growth in sequence data • Not much growth in sequence size • Expect exponential growth in annotation information What are we to do with all this data?
二级数据库包括:
由上述三类数据库和文献资料为基础构建的数据库。
10
分子生物信息数据库
11
三、基因组数据库 (genome databases)
基因组数据库的主体是模式生物基因组数据 库,此外基因组信息资源还包括染色体、基因 突变、遗传疾病、分类学等各种数据库。
GDB —— 人类(Homo sapiens)基因组 数据库 AceDB —— 线虫 (Caenorhabditis elegans) 基因组数据库
12
人类基因组计划所得到的图谱数据
目前GDB包含对下述三种对象的描述:
(1)人类基因组区域 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、 易碎位点、 EST、综合区域、contigs、重复等; (2)人类基因组图谱 包含细胞遗传学图谱、连接图谱、辐射混合图谱、 contig 图谱、集成图谱,所有这些图谱都可以被直观 地显示出来; (3)人类基因组中的变化 包括基因突变和基因多态性,加上等位基因频率数据。
38
常用分子生物信息学数据库-2
数据库名称 EMEST SWISS-PROT TREMBL DSSP FSSP SBASE HUMREP CPGISLE TRANSFAC YPD KABATP PROSITEDOC 数据库内容 EMBL数据库中EST部分 蛋白质序列 EMBL翻译所得蛋白质序列 蛋白质二级结构参数 已知空间结构蛋白质家族 蛋白质结构域序列 人类基因组中重复序列 CpG岛序列 转录因子 酵母基因组 免役球蛋白蛋白质序列 蛋白质功能位点文献摘要
4
生物分子数据 高速增长
分子生物学 及相关领域研究人员 迅速获得最新实验数据
建立生物分子数据库
5
生物信息数据库应满足5个方面的 主要需求:
(1)时间性 (2)注释
(3)支撑数据
(4)数据质量
(5)集成性
6
Challenges of Large Databases
• Storage
– Indexing, physical layout, memory management
21Байду номын сангаас
SWISS-PROT
• •
ID AC DT DT DT DE GN OS OC OC OX RN RP RC RX RA RT RT RL …
Defined by SWISS-PROT database
– Includes annotation, other info
Example:
BRC1_MOUSE STANDARD; PRT; 1812 AA. P48754; Q60957; Q60983; 01-FEB-1996 (Rel. 33, Created) 01-NOV-1997 (Rel. 35, Last sequence update) 16-OCT-2001 (Rel. 40, Last annotation update) Breast cancer type 1 susceptibility protein homolog. BRCA1. Mus musculus (Mouse). Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus. NCBI_TaxID=10090; [1] SEQUENCE FROM N.A. STRAIN=C57BL/6; TISSUE=Embryo; MEDLINE=96177659; PubMed=8634697; Abel K.J., Xy J., Yin G.Y., Lyons R.H., Meisler M.H., Weber B.L.; "Mouse Brca1: localization sequence analysis and identification of evolutionarily conserved domains."; Hum. Mol. Genet. 4:2265-2273(1995).
13
14
15
16
四、序列数据库 (Sequence databases)
序列数据库是分子生物信息数据库中最基本的 数据库,包括核酸和蛋白质两类,以核苷酸碱
基顺序或氨基酸残基顺序为基本内容,并附有
注释信息。
17
(一) 核酸序列数据库
国际上权威的核酸序列数据库
GenBank - 美国国家信息中心的核酸 数据库 (1979) EMBL - 欧洲分子生物学实验室的核酸
• Modeling
– Relational, hierarchical, semi-structured
• Efficiency
– Update, query, analysis
• Interpretation
– Visualization
7
生物信息数据库几个明显的特征:
(1)数据库的更新速度不断加快,数据量 呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置
39
常用分子生物信息学数据库-3
数据库名称 BLOCKS PRODOM ENZYME OMIM SEQANALREF MEDLINE FLYGENES RHDB P53 PK CUTG TAXONOMY BIOCAT 数据库内容 同源蛋白序列模块 蛋白质结构域 酶 人类遗传缺陷基因 序列分析文献目录 医学文献目录 果蝇基因组 放射杂交 P53蛋白突变 丙酮酸激酶 遗传密码使用频度 分类学 生物信息学程序目录
PDB的网址:/pdb(美国) PDBsum的网址:/bsm/pdbsum
24
25
26
六、二次数据库
根据生命科学不同研究领域的实际需要, 对基因组图谱、核酸和蛋白质序列、蛋白质结构 以及文献等数据进行分析、整理、归纳、注释, 构建具有特殊生物学意义和专门用途的二次数据库, 这是数据库开发的有效途径。 近年来,世界各国的生物学家和计算机科学家合作, 已经开发了几百个二次数据库和复合数据库, 也称专门数据库、专业数据库、专用数据库。
31
中华民族基因多态性数据库
32
蛋白质二硫键数据库
33
水稻矮缩病毒基因组数据库
34
转录因子细胞特异表达数据库
35
蛋白质回环数据库
36
37
常用分子生物信息学数据库-1
数据库名称 EMBL PIR OWL PDB HSSP PDBFINDER SUBTILST VECTOR RDP ECDC KABATN PROSITE 数据库内容 核酸序列 蛋白质序列 非冗余蛋白质序列 蛋白质三维空间结构 同源蛋白家族 PDB数据库注释信息 枯草杆菌序列 克隆载体 核糖体序列 大肠杆菌序列 免役球蛋白核酸序列 蛋白质功能位点
数据库 (1982)
DDBJ -日本遗传研究所的核酸数据库(1987)
18
GenBank
•
•
Flat file format used by GenBank
– Annotation, author, version, etc.
Example (just the top)
MMU35641 5538 bp mRNA linear ROD 18-OCT-1996 Mus musculus Brca1 mRNA, complete cds. U35641 U35641.1 GI:1040960 . house mouse strain=C57Bl/6. Mus musculus Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus. 1 (bases 1 to 5538) Sharan,S.K., Wims,M. and Bradley,A. Murine Brca1: sequence and significance for human missense mutations Hum. Mol. Genet. 4 (12), 2275-2278 (1995) 96177660 8634698 19
分子生物信息数据库
(Molecular Bioinformatics Databases)
一、简介 二、分子生物信息数据库 三、基因组数据库 四、序列数据库 五、结构数据库 六、二次数据库 七、NCBI分子生物学数据库
1
一、简 介
已经完成全序列测定的基因组
2
Total nucleotides:
301,588,430,608
TrEMBL —— Translation of EMBL
20
SWISS-PROT
(http://www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库, 其中的蛋白质序列是经过注释的. SWISS-PROT中的数据来源于不同源地: (1)从核酸数据库经过翻译推导而来; (2)从蛋白质数据库PIR挑选出合适的数据; (3)从科学文献中摘录; (4)研究人员直接提交的蛋白质序列数据