当前位置:文档之家› 生物信息学课件

生物信息学课件


2014-3-11
GenBank:由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI) 建立。该 中心隶属于美国国家医学图书馆,位于美国国家卫生 研究院(NIH)内。
EMBL:欧洲分子生物学实验室(European Molecular Biology Laboratory, 其下有European Bioinformatics Centre),主要位于英国剑桥Cambridge和德国汉堡 Hamburg。
核酸序列
氨基酸序列
2014-3-11
注意
• 组成序列信息字符串的符号必须为标准的国 际生物化学联合会 (IUB)/国际纯粹与应 用化学联合会 (IUPAC) • 氨基酸或核苷酸的符号符号的大小写同义, 单个“连字符”表示一个空位 • 不清楚的核苷酸残基用 N表示,不确定的氨 基酸残基用X表示 • 标题行的名称是用户自定义的,可以是汉字, 也可以是英文
2014-3-11
2. 序列详细注释的GenBank格式
• GBFF(GenBank flatfile,GenBank 平面文 件)格式 • GenBank数据库的基本信息单位,是最为 广泛使用的生物信息学序列格式之一。
2014-3-11
GenBank格式
GenBank格式: 每个条目都是一份纯文本文件。每行左端或为空格或为识别字, 识别字均为完整英文字,不用缩写。 GenBank条目,使用一大批与EMBL和DDBJ数据库统一的关键
– 自治的 (autonomous) – 分布式的 (distributed) – 异构的 (heterogeneous)
2014-3-11
数据集成 Data Integration
一、 生物信息学数据库
生物信息学数据库的种类

分子生物信息数据库种类繁多。归纳起来,大体 可以分为4个大类: 基因组数据库
2014-3-11
一个简单的GenBank记录
LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM AF062069 3808 bp mRNA INV 02-MAR-2000 Limulus polyphemus myosin III mRNA, complete cds. AF062069 AF062069.2 GI:7144484 . Atlantic horseshoe crab. Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. (1998) In press REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT 2014-3-11 On Mar 2, 2000 this sequence version replaced gi:3132700.
2014-3-11
1、FASTA序列格式(Person格式 )
FASTA 序列格式包括三个部分: (1)在注释行的第一行用字符“>”标识,后面是 序列的名字和来源 (2)标准的单字符表示序列 (3)可选的“*”表示序列的结束,它可能出现也 可能不出现,但它是许多序列分析程序正确读取序 列所必须的。 FASTA格式是序列分析软件最常用的格式。这种格 式提供了从一个窗口到另一个窗口非常方便的拷贝 途径,因为序列中没有数字或其他非字符。FASTA 序列格式和蛋白质信息资源NBRF格式很相似。
2014-3-11
•说明3点:
•序列文件的第一行是由大于符号(>)打头的
任意文字说明,主要为标记序列用。 •从第二行开始是序列本身,标准核苷酸符号或 氨基酸单字母符号。通常核苷酸符号大小写均 可,而氨基酸一般用大写字母。 •文件中和每一行都不要超过80个字符(通常60 个字符)。
2014-3-11
字。格式可以分成3个部分:
1)头部包含关于整个序列的信息(描述字符),从 LOCUS行到 ORIGIN行;
2)注释这一序列的特性(Feature Table ),为注释的核心部分;
3)序列本身(Sequence)。 注:所有的核苷酸数据库记录(EMBL/GenBank/DDBJ)都在最后
一行以//结尾。
2014-3-11
二、核酸数据库
1 、国际三大核酸数据库
• 数据库 (Database)

网址 (Address)
GenBank EMBL DDBJ
/genbank /embl www.ddbj.nig.ac.jp/index-e.html
– Painfully collecting unstructured information around the sites – Manually putting pieces together – Hopefully getting the right picture...
• 总之,信息源的特点是:
第二 章 核酸序列分析
Nucleic Acid sequence Analysis
2014-3-11
§2.1 生物信息学数据库 Bioinformatics database
2014-3-11
生物信息学最重要的任务是从海量数据中提取新知识
2014-3-11
生物信息学数据存在的问题
• 信息源分布在世界各地不同的站点上 • 涉及多个数据源的全局问题无法立刻得到答案
DDBJ:日本DNA数据库(DNA Data Bank of Japan), 由the National Institute of Genetics, NIG 主管。
2014-3-11
这3个大型数据库于1988年达成协议,组成合作联合体。
它们每天交换信息,并对数据库DNA序列记录的统一
标准达成一致。每个机构负责收集来自不同地理分布的 数据(EMBL负责欧洲,GenBank负责美洲,DDBJ负责 亚洲等),然后来自各地的所有信息汇总在一起,3个 数据库的数据共享并向世界开放,故这3个数据库又被



核酸和蛋白质一级结构数据库
生物大分子(主要是蛋白质)三维空间结构数据库 由上述3类数据库和文献资料为基础构建的二级 数库的分类
一级数据库
数据库中的数据直接来源于实验获得的原始数据,只经过简 单的归类整理和注释
一级核酸数据库:EMBL database,GenBank database,DDBJ database 一级蛋白质序列数据库:SWISS-PORT database , PIR database 一级蛋白质结构数据库: PDB database
目前完成全基因组测序工作的物种有很多,并在
随时更新(update).可以进入ncbi的基因组计
划二次数据库查看,其网址: /Genomes
2014-3-11
四、 数据库格式
历史原因:没有完全统一的数据库格式
了解所用数据库格式的重要性
一般由两部分组成: 文字注释 序列
北京大学生物信息学中心(Centre of Bioinformatics, Peking University):
北京华大基因研究中心(中国科学院北京基因组研究所):
/bgi_new/index.htm 清华大学生物系生物信息研究室: 中国科学院上海生命科学研究院生物信息中心: 2014-3-11
Research》 (/)自1993 年起,每年都会在第一期推出生物数 据库特刊,介绍上一年度的数据库增 加和更新情况。
至2010年,生物信息学数据库总数已
达1230个。
2014-3-11
2014-3-11
核酸序列数据库
2014-3-11
称为公共序列数据库(Public Sequence Database)。
所以从理论上说,这3个数据库所拥有的DNA序列数据
是完全相同的。你可以从中选择一个你喜欢的数据库;
但是如果你的研究需要实时(24小时以内)的,则要注意 这些数据库间的记录是会有差异的。
相关主题