当前位置:文档之家› 生物信息学数据库检索PPT课件

生物信息学数据库检索PPT课件


7. Human and other Vertebrate Genomes 人和其他脊椎基因组
8. Human Genes and Diseases
人基因和疾病
9. Microarray Data and other Gene Expression Databases
10. Proteomics Resources微阵列和其他基因表达数据库蛋白质组资源
6
组学数据库分类
• 一级数据库:通过收集组学数据构建的数 据库
• 二级和三级数据库:对一级数据库数据进 一步分析、归纳和整理,目的性和实用性
– TRANSFAC:转录因子和结合位点数据库 – SMART、pFam数据库:收录了可能的蛋白质
结构域信息,并提供了特定算法工具
7
生物信息学数据库的地位和作用
11. Other Molecular Biology Databases 其他分子生物学数据库
12. Organelle databases
细胞器数据库
13. Plant databases
植物数据库
14. Immunological databases
免疫学数据库
11
常用分类类型
• 序列数据库 • 结构数据库 • 功能数据库 • 其它专业数据库
大规模组学研究
• 上世纪90年代初启动人类基因组计划,短 时间内产生海量生物学数据
• 随着基因组计划进行,多种相关高通量研 究逐渐开展起来
– 基于表达序列标签(EST)和DNA微阵列的高 通量转录组研究
– 基于生物质谱的蛋白质组表达谱和修饰谱研究 – 基于酵母双杂交等技术的高通量蛋白质-蛋白质
相互作用组研究 – 代谢组等相关的组学研究
4
经典生物医学研究
• 针对某较小领域开展深入研究,采集的生 物学数据
• 对大量零碎的生物学数据,进一步收集、 整理和利用,对推动生物医学的研究有重 要意义
– 最具代表性的是KEGG数据库,该数据库整理 收录了大量代谢网络(PATHWAY)的研究成 果,描绘了生物体内代谢网络涉及的各种分子 及关系
5
14
一、序列数据库(基因组)
• Genome Database(GDB)数据库 • Ensembl,由EMBL - EBI和Sanger研究所联合开
发,对后生动物基因组的自动注释和维护 /
– 包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析,主要 依据已测序获得的基因组序列,定位所有已知基因,并预测未知 新基因,同时为这些基因提供功能、疾病相关特征等方面的注释 信息;Ensembl基因组注释的核心是基因预测,考虑到现有预测 方法的限制,该系统整合了多种预测方法,并提供了各种预测方 法结果的下载
将国际上生物学数据库归纳为14类 (/nar/databas e/c/)
9
10
《核酸研究》的14类数据库
1. Nucleotide Sequence Databases
核酸序列数据库
2. RNA sequence databases
RNA序列数据库
12
主要内容
• 生物信息学数据库类型
– 序列数据库 – 结构数据库 – 功能数据库 – 其它专业数据库
• 生物信息学数据库的检索
– 检索方法概述 – 检索实践和案例
13
一、组计划产生的基因组及其表达
序列,由基因组序列所推测的编码和非编 码核酸和蛋白质序列,以及个别生物学实 验中测序获得的核酸和蛋白质序列
• UCSC Genome Browser,加州大学圣克鲁兹分校 建立,包括各种脊椎和无脊椎动物,以及主要模式 生物的基因组数据 /
15
一、序列数据库(核酸)
• GenBank、EMBL、DDBJ /Genbank, /embl/, http://www.ddbj.nig.ac.jp/
经典生物医学实验 大量零碎数据 数据收集整理
大规模组学实验 海量组学数据 数据存储、注释
检索查询
数据库 理论分析
生物学研究
生物医学应用 8
生物信息学数据库类型
• 核酸研究(Nucleic Acids Research)杂志 • 每年第一期为生物信息学数据库专刊,收录
最主要的生物学相关数据库 • 2010年的核酸研究杂志提供的数据库列表
• 研究目标是发展和利用先进计算技术解决生物 学难题
2
生物信息学数据库
• 大量生物学数据的存储和利用离不开数据 库
• 用于结构化存储生物数据,以便进一步对 数据进行分析和利用
3
数据库的数据来源
• 两大主要来源
– 经典的生物医学研究:大量生物医学科 研工作者根据自己的兴趣开展的个别研 究
– 大规模组学研究:代表性工作是大规模 人类基因组学和蛋白质组学研究
生物信息学数据库
信息检索教研室 薛晓芳
2010年11月2日
1
生物信息学概念
• 生物信息学是对生物学数据进行收集、处理、 存储、检索和分析的一门交叉学科
• 研究生物信息的采集、处理、存储、传布、分 析和解释等各个方面,通过综合数学、计算机 科学和生物学的工具与技术来揭示大量而复杂 的生物数据所赋有的生物学奥秘
3. Protein sequence databases
蛋白质序列数据库
4. Structure Databases
结构数据库
5. Genomics Databases (non-vertebrate) 基因组数据库(非脊椎动物)
6. Metabolic and Signaling Pathways 代谢和信号通路
– 三个数据库每天互相交换数据 – GenBank可通过NCBI的检索系统Entrez获取, Entrez集成来自
主要DNA和蛋白序列数据库的数据,包括物种、基因组、定位、 蛋白结构和结构域等信息
• 各种专业核酸数据库
– 非冗余参考序列数据库RefSeq – 密码子使用数据库Codon Usage Database CUTG – 基因可变剪接数据库ASDB – 转录因子数据库TRANSFAC
相关主题