1生物信息学概论
目标:整体上破解人类遗传信息的奥秘
2021/3/10
21
DNA、基因、基因组
生命活动三要素:物质、能量、信息
DNA: 遗传物质(遗传信息的载体) 双螺旋结构
A, C, G, T四种基本字符的复杂文本
基因(Gene):具有遗传效应的DNA分子片段
2021/3/10
22
基因组(Genome):包含细胞或生物体全套的遗传信息的全部
遗传物质。原核生物(细菌、病毒等) 真核生物(真菌、植物、动物等)
人类基因组:
3.2×109 bp
2021/3/10
23
2021/3/10
尽管比之于人类登月,HGP的投入资金 要少得多,但HGP对人类生活的影响要 更为深远。因为随着这个计划的完成, DNA分子中编码的遗传信息将对人类存 在的化学基础作出最终的回答。这将不 仅帮助我们理解我们是如何作为健康的 人发挥正常功能的,而且也将在化学水 平上解释遗传因子在各种疾病,如癌症、 早老痴呆症、精神分裂症等一些严重危 害人类健康的疾病中的作用。毕竟对人 类自身更深入的了解是人类活动中最重 要的一个部分。
8
What is bioinformatics? from /wiki/Bioinformatics
• Bioinformatics and computational biology involve the use of techniques including applied mathematics, informatics, statistics, computer science, artificial intelligence, chemistry, and biochemistry to solve biological problems usually on the molecular level. Research in computational biology often overlaps with systems biology. Major research efforts in the field include sequence alignment, gene finding, genome assembly, protein structure alignment, protein structure prediction, prediction of gene expression and proteinprotein interactions, and the modeling of evolution.
2021/3/10
33
生物分子数据的收集与管理
基因组 数据库
EMBL GenBank DDBJ
蛋白质 序列 数据库
SWISS-PROT PIR
蛋白质
PDB
结构
2021/3/10
数据库
34
数据库搜索及序列比较
• 搜索同源序列在一定程度上就是通过序列比较寻找相 似序列
• 序列比较的一个基本操作就是比对(Alignment),即 将两个序列的各个字符(代表核苷酸或者氨基酸残基) 按照对应等同或者置换关系进行对比排列,其结果是 两个序列共有的排列顺序,这是序列相似程度的一种 定性描述
生物信息学的历史
从人类基因组计划(HGP)说起
2021/3/10
19
曼哈顿原子弹计划
阿波罗登月计划
人类基因组计划
2021/3/10
20
为什么提出HGP?
60年代初,美国总统Kennedy提出两个科学计划:
登月计划 攻克肿瘤计划 人类遗传信息的复杂性
人类基因组计划
(HGP,Human Genome Project)
• 狭义 应用信息科学的理论、方法和技术,管理、 分析和利用生物分子数据。
2021/3/10
10
计算生物学/生物信息学: 三种科学文化的融合
生物学家 (生物学问题)
数学物理学家 计算机科学家 (基础理论问题)
工程师 (技术应用)
2021/3/10
11
A marriage of …
Information technology
——Watson ,1990,《Science》
24
HGP的历史回顾
1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基
因组DNA序列的意义
1985 Dulbecco在《Science》撰文 “肿瘤研究的转折点:人
类基因组的测序”
美国能源部(DOE)提出“人类基因组计划”草案
1987 美国能源部和国家卫生研究院(NIH)联合为“人类
大肠杆菌及其全基因组
2021/3/10
水稻基因组计划
27
1999.7 第5届国际公共领域人类基因组测序会议,加快测序速度 2000 Celera公司宣布完成果蝇基因组测序
国际公共领域宣布完成第一个植物基因组——拟南芥全基 因组的测序工作
Drosophila melanogaster 果蝇
2021/3/10
2021/3/10
3
生物信息学概论
2021/3/10
4
内容
生物信息学概况 – 生物信息学简介
生物信息学、生物学基础 历史、内容、任务、技术和方法
– 发展趋势及研究热点
2021/3/10
5
生物信息学简介
三大自然科学之谜
• 宇宙的起源 • 生命的诞生 • 思维的奥秘
2021/3/10
7
2021/3/10
6.9
13 GBF
21, reg of 9
6
14 Stanford (Davis)
8
23
15 Keio
2,6,8,22,21
30
16 U. Wash (Hood LAB) 14,15
2671
Total
2021/3/10
2671Mb
6/1-8/31/99
Projected Kr Proj Accum.
基因表达数据的分析与处理
• 基因表达数据分析是目前生物信息学研究的热 点和重点
• 目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能
• 所用方法主要有:相关分析方法、模式识别技 术中的层次式聚类方法、人工智能中的自组织 映射神经网络、主元分析方法 等
生物信息学
Bioinformatics
2021/3/10
1
理论课讲授内容
第一讲 生物信息学概论 第二讲 医学信息学基础及信息学基本技术 第三讲 生物信息中心、核酸和蛋白质序列
资源 第四讲 生物信息重要数据库
2021/3/10
2
第五讲 序列比对 第六讲 生物医学文献及PCR 第七讲 序列特征分析 第八讲 生物信息学与基因芯片
– 生物信息学是在生命科学的研究中,以计算机为工具 对生物信息进行储存、检索和分析的科学。
– 生物信息学是当今生命科学和自然科学的重大前沿领 域之一,同时也将是21世纪自然科学的核心领域之一, 其研究重点主要体现在基因组学(Genomics)和蛋白组学 (Proteomics) 。
2021/3/10
基因组计划”下拨启动经费约550万美元
1989 美国成立“国家人类基因组研究中心Watson担任
第一任主任
1990.10 经美国国会批准,人类基因组计划正式启动
2021/3/10
25
1995 第一个自由生物体流感嗜血菌(H. inf)的全 基因组测序完成
1996 完成人类基因组计划的遗传作图
启动模式生物基因组计划
Actual K Genbank Kr 4/1-11/30/99 Mr. 4/99-3/00
1300
941
4200
>12
837
296
2900
8
865
559
2300
7.9
687
461
2100
6.4
462
261
660
3.1
136
195
520
2.1
180
32
180
1.5
100
118
300
1.4
12.5
12.5
900
4 JGI
5,16,19
250
5 Baylor
1,2,3,X
230
6 Riken
21,18,11q
160
7 IMB
8,21,X
50
8 Genoscope
Most of 14
85
9 U. Wash (Olson)
10 Beijing
3p
30
11 GTC (Smith)10Biblioteka 5012 MPIMG
17,21,X
Biology
2021/3/10
12
生命信息系统
生物所处的时空系统 物质系统,信息传递与控制,能量
2021/3/10
13
相关学科图示
2021/3/10
14
广义概念图示
2021/3/10
15
狭义概念图示
2021/3/10
16
总结:生物信息学
– 生物信息学(Bioinformatics) 是一门新兴的交叉学科, 是生命科学领域中的新兴学科,面对人类基因组计划 等各种项目所产生的庞大的分子生物学信息,生物信 息学的重要性将越来越突出,它将会为生命科学的研 究带来革命性的变革。
2021/3/10
9
生物信息学
• 说文解字:生物 + 信息 + 学 (bioinformatics)
biology + information + theory