当前位置:文档之家› 生物信息学中的数据库资源及其应用

生物信息学中的数据库资源及其应用

生物信息学中的数据库资源及其应用摘要:伴随着生物信息学的发展,生物信息数据库日趋完善。

现对生物信息学、数据库的建设及其应用情况进行了综述,并展望生物信息学的发展前景。

关键词:生物信息学;数据库的建设及其应用生物信息学(Bioinformatics)是80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,最初常被称为基因组信息学。

广义地说,生物信息学是一门采用计算机技术和信息论方法对蛋白质及其核酸序列等多种生物信息采集、加工、储存、传递、检索、分析和解读的科学,是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。

美国人类基因组计划中[1],对基因组信息学有这样的定义:它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。

这一定义包含着两方面的内容,一方面是发展有效的信息分析工具,构建适合于基因组研究的数据库,用于搜集,管理,使用人类基因组和模式生物基因组的巨量信息。

另一方面是配合实验研究,确定约30亿个碱基对的人类基因组完整核苷酸顺序,找出全部约10万个人类基因在染色体上的位置以及包括基因在内的各种DNA片段的功能,也就是“读懂”人类基因组[2]。

正如基因组信息学的定义所确定的,它的研究内容主要包含两个部分,一是基因组相关数据的收集与管理,另一个是基因组数据内涵的分析与解释,也就是遗传密码的破译。

生物信息学自产生以来大致经历了前基因组时代、基因组时代和后基因组时代三个发展阶段。

前基因组时代的标志性工作包括生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等;基因组时代的标志性工作包括基因识别与发现、网络数据库系统的建立和交互界面工具的开发等;后基因组时代的标志则是大规模基因组分析、蛋白质组分析以及各种数据的比较与整合。

三个阶段虽无明显的界限,却真实地反映了整个研究重心的转移变化历程[3]。

1 生物信息学数据库简介近年来随着大量生物学实验数据的积累,众多的生物学数据库也相继出现,它们各自按照一定的标准收集和处理生物学实验数据,并提供相关的数据查询、处理等服务。

而数据库的类型则几乎覆盖了生命科学的各个领域[4]。

国际上主要的DNA序列数据库有GenBank,EMBL,DDJB,ESTdb,OMIM,GDB,GSDB 等;蛋白质一级结构数据库有SWISS-PROT,PIR,OWL,ISSD,MIPS等;蛋白质二级结构数据库有PROSITE,BLOCKS,PRINTS等;蛋白质和其他生物大分子的三维结构数据库有PDB,NDB,CCSD 等;与蛋白质结构分类有关的数据库有SCOP,CATH,FSSP 等[5]。

上述这些数据库只是对原始生物学实验数据进行简单的整理和归类,可称它们为基本数据库;随着生物数据库在种类和数量上的急剧增长,其复杂程度也不断增加,这就对数据库的管理带来了挑战,一些将多个基本数据库整合在一起提供综合服务的二次数据库便出现了,常用的有UniGene,TransFac,EPD,Prosite,Prints,Pfam,Blocks,Prof iles,DSSP,PubMed 等数据库。

这样用户可以方便地进行多个数据库的多种查询。

现在大多数数据库能实现自动投送数据、在线查询、在线计算和空间结构的可视化浏览等多种功能[6]。

目前,几乎所有这些数据库对学术研究部门或人员来说都是免费的,可以免费下载或提供免费服务。

1.1 生物信息学数据库的分类及特点按照处理对象分类,生物信息学中的数据库主要有四种类型:核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库和基因组数据库。

根据建库的方式,现有的生物信息数据库也可以大致分为四类:一级数据库是最基础的,一般是国家或国际组织建设和维护的数据库,如由美国NCBI所维护的GenBank 等。

二级数据库是在一级数据库的基础上,结合工作的需要将部分数据从一级数据库中取出,经过重新组合( 包括一定的修正或调整) 而成的数据库。

其专一性很强,数据量相对较少,但质量高,数据库结构设计精制。

专家库是一种特殊的二级数据库,但它是通过有经验的专家经过人工校对标识之后建立的。

这种数据库质量很高,使用方便可靠,但更新和发展都比较慢。

SWISS-PROT就是一个典型的专家库。

还有一种是整合数据库,它是将不同数据库的内容按照一定的要求整合而成,为一定的目的服务,许多商业和内部数据库实质上就整合数据库。

生物信息学数据库具有以下一些特点:数据库种类的多样性,生物信息学各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库、蛋白质序列数据库、蛋白质的三维结构数据库、文献数据库如Medline等,多达数百种。

数据库的更新和增长很快,数据库的更新周期越来越短,有些数据库每天都要更新,数据的规模也以指数形式增长。

数据库的复杂性增加,层次加深,许多数据库具有相关的内容和信息,数据库之间相互引用,如PDB 就与蛋白质二级数据库、蛋白质结构分类数据库和蛋白质折叠数据库等几十种数据库直接关联。

数据库使用的高度计算机化和网络化,越来越多的生物信息学数据库与互联网联结,从而为生物学家利用这些信息资源提供了前所未有的机遇,特别是绝大多数网上生物信息学数据库的信息资源可以免费检索或下载使用[7]。

1.2 常用生物学数据库1.2.1 核酸序列数据库目前,国际上最权威、最主要的3大核酸序列数据库是:美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)所维护的GenBank数据库,欧洲生物信息学研究所(European Bioinformatics Institute,EBI)的EMBL(European Molecular Biology Laboratory)数据库和日本国立遗传学研究所(Japan National Institute of Genetics for Information Biology )的DDBJ(DNA Data Bank of Japan)数据库。

1998年它们共同成立了国际核苷酸序列数据库协会(International Nucleotide Sequence Database Collaboration,INSDC),每天进行数据交换,同步更新,确保用户在任何一家数据库得到的信息是完整、全面的[8]。

除3大核酸数据库外,还有很多特殊类型的核酸序列数据库,如人类基因组数据库(HGD)、非编码RNA数据库(ncRNA)、表达序列标签数据库(dbEST)、核苷酸三维结构数据库(NDB)、人类基因变异数据库(HMGD)等,更细类别的核苷酸数据库如miRBase、tRNAdb等[9]。

GenBank是具有目录和生物学注释的核酸序列综合公共数据库。

该数据库中包含已公开的可获得的38万余种以属或属以下水平命名的生物核酸序列,这些数据主要来源于序列发现者提交的序列、成批提交的表达序列标签、基因组勘测序列和其它测序中心提供的高通量数据,还包括美国专利商标局提供的已发表的序列数据,自GenBank建立以来,随着测序技术的不断发展,数据库的序列数据量持续呈指数增长,大约每35个月翻一番[11]。

EMBL核酸序列数据库是欧洲最主要的、世界上最早的核酸序列数据库,收存了欧洲大部分核酸序列生物等生物学数据,其序列来源于基因组测序中心、世界各地的研究人员、欧洲专利局及其合作伙伴GenBank和DDBJ交换的数据。

该数据库目前由欧洲生物息学研究所EBI负责维护[12]。

DDBJ数据库是亚洲唯一的核酸序列数据库,由日本国立遗传学研究所遗传信息中心维护。

其数据库首先是反映日本所产生的DNA数据,同时与GenBank和EMBL合作,互通有无,同步更新,每年4版。

DDBJ数据库与GenBank的格式一致。

1.2.2 蛋白质序列数据库蛋白质序列数据库有很多,主要有PIR-PSD、Swiss-Prot和TrEMBL等。

PIR是较全面和权威注释的蛋白质序列数据库,具有非冗余、高质量和全面的分类等特点。

Swiss-Prot由瑞士生物信息学研究所和欧洲生物信息学研究所EBI 共同维护,通常认为Swiss-Prot中的蛋白质注释信息是黄金标准,有经验的分子生物学家和蛋白质化学家通过计算机查阅相关文献资料仔细核实了该数据库的所有序列条目。

TrEMBL提供蛋白质序列的自动注释信息。

2002年,PIR、Swiss-Prot和TrEMBL在美国国立卫生研究院(NIH)的资助下,将PIR、Swiss-Prot和TrEMBL合并,建立了全球范围内统一的蛋白质序列和功能数据库——UniProt(Universal Protein Resource)。

1.2.3 生物大分子结构数据库如蛋白质结构数据库(Protein Data Bank,PDB)是目前国际上著名的生物大分子结构数据库,含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,其中主要是蛋白质的三维结构,还包括DNA、RNA、蛋白质与核酸复合物的三维结构。

同核酸序列数据库一样,可通过网络直接向PDB数据库递交结构数据。

截止2013年9月5日,PDB数据库中共含有93624个结构数据[13]。

由于PDB主要由生物大分子三维结构所组成,具有以下几种功能:能够查找目的蛋白质的结构;可进行蛋白质一级到高级结构的简单分析;与互联网上的其他一些数据库链接,如GenBank、Swiss-Prot、PIR等,从而可查询蛋白质的其他信息;通过关键词或PDB标识符等进行查询,可下载有关的结构信息以供进一步使用。

在蛋白质分析中,PDB主要应用于蛋白质结构预测和结构相似性比较。

1.2.4 基因组数据库如Ensembl,是一个综合基因组数据库,它是由欧洲生物信息学研究所(EBI)与Sanger研究所、Wellcome基金会(Wellcome Trust Sanger Institute,WTSI)共同合作开发的一个系统。

Ensembl是一个有关人类基因组和其他物种基因组的全面资源的基因组信息库,为研究人员提供了全面的基因组信息,包括基因数据存储、信息整合、数据分析及生物信息可视化处理等功能。

Ensembl 试图跟踪这些基因组的序列片段,并将其组装成单个长序列,分析这些经过组装的DNA序列,搜索其中基因,发现生物学家或医学工作者感兴趣的特征。

此外,Ensembl数据库还提供疾病、细胞等方面的信息,且提供数据搜索、数据下载、统计分析等服务。

目前,Ensembl共收录50多个物种的数据[14]。

2 数据库的应用2.1 序列比对与电子克隆数据库检索是一个重要工具,在分子生物学研究中,研究者获得的新的核酸或蛋白序列,并不一定知道其相应的生物功能。

相关主题