生物信息学和其发展历史
概念(狭义)
生物分子信息的获取、存贮、分析和利用
分子生物信息学 Molecular
Bioinformatics
生物 分子数据
获取 挖掘
深层次 生物学知识
由于当前生物信息学发展的主要推动 力来自分子生物学,生物信息学的研究 主要集中于核苷酸和氨基酸序列的存储、 分类、检索和分析等方面,所以目前生 物信息学可以狭义地定义为:将计算机 科学和数学应用于生物大分子信息的获 取、加工、存储、分类、检索与分析, 以达到理解这些生物大分子信息的生物 学意义的交叉学科。
生物科学和 技术的 发展
人类基因组 计划的 推动
生物信息学 基本思想的产生
二十世纪 50年代
生物信息学 的迅速发展
二十世纪 80-90年代
20世纪50年代,生物信息学开始孕育
20世纪60年代,生物分子信息在概念上将计算 生物学和计算机科学联系起来
20世纪70年代,生物信息学的真正开端
20世纪70年代到80年代初期 ,出现了一系列著 名的序列比较方法和生物信息分析方法
目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能
所用方法主要有:
相关分析方法 模式识别技术中的层次式聚类方法 人工智能中的自组织映射神经网络 主元分析方法
基因芯片
层次式聚类
二 维 电 泳 图
5、蛋白质结构预测
第二节 生物信息学及其发展历史
1、生物信息学的概念
生物信息学(Bioinformatics) 这一名词的来由
八十年代末期,林华安博士认识到将计算机科学与生 物学结合起来的重要意义,开始留意要为这一领域构思 一个合适的名称。起初,考虑到与将要支持他主办一系 列生物信息学会议的佛罗里达州立大学超型计算机计算 研究所的关系,他使用的是“CompBio”;之后,又将其 更改为兼具法国风情的“bioinformatique”,看起来似乎 有些古怪。因此不久,他便进一步把它更改为“bioinformatics(或bio/informatics)”。但由于当时的电子 邮件系统与今日不同,该名称中的-或/符号经常会引起许 多系统问题,于是林博士将其去除,今天我们所看到的 “bioinformatics”就正式诞生了,林博士也因此赢得了 “生物信息学之父”的美誉。
信
息
生物分子功能数据
直 观
复杂
第一部 遗传密码
第二部 遗传密码?
DNA 核酸序列
蛋白质 氨基酸序列
蛋白质 结构
蛋白质 功能
最基本的 生物信息
生命体系千姿 百态的变化
生物分子数据及其关系
维持生命活 动的机器
第一部遗传密码已被破译,但对密码的转录过程还不 清楚,对大多数DNA非编码区域的功能还知之甚少
1. 基因组
1.1 新基因的发现
通过计算分析从EST(Expressed Sequence Tags)序列库中拼接出完整的新基因编码区, 也就是通俗所说的“电子克隆”;通过计算分 析从基因组DNA序列中确定新基因编码区,经过 多年的积累,已经形成许多分析方法,如根据 编码区具有的独特序列特征、根据编码区与非 编码区在碱基组成上的差异、根据高维分布的 统计方法、根据神经网络方法、根据分形方法 和根据密码学方法等。
1995年,在美国人类基因组计 划(HGP)第一个五年总结报告 中给出了一个较为完整的生物信息 学的定义:生信息学是包含生物信 息的获取、处理、贮存、分发、分 析和解释的所有方面的一门学科, 它综合运用数学、计算机科学和生 物学的各种工具进行研究,目的在 于了解大量的生物学意义。
Bioinformatics
/bioinformatics/。
第三节 生物信息学主要研究内容
生物信息学主要研究内容
1、 生物分子数据的收集与管理 2、 数据库搜索及序列比较 3、 基因组序列分析 4、基因表达数据的分析与处理 5、蛋白质结构预测
1、 生物分子数据的收集与管理
EMBL
预测准确率超过70%的第一个软件是基于神经网络的 PHD系统
空间结构预测
在空间结构预测方面,比较成功的理论 方法是同源模型法
该方法的依据是:相似序列的蛋白质倾 向于折叠成相似的三维空间结构
运用同源模型方法可以完成所有蛋白质 10-30%的空间结构预测工作
第四节 生物信息学当前的主要任务
纵观当今生物信息学界的现 状,可以发现,大部分人都 把注意力集中在基因组、蛋 白质组、蛋白质结构以及与 之相结合的药物设计上
基因组 数据库
GenBank DDBJ
蛋白质 序列 数据库
SWISS-PROT PIR
蛋白质
PDB
结构
数据库
2、 数据库搜索及序列比较
搜索同源序列在一定程度上就是通过序列比较 寻找相似序列
序列比较的一个基本操作就是比对 (Alignment),即将两个序列的各个字符 (代表核苷酸或者氨基酸残基)按照对应等同 或者置换关系进行对比排列,其结果是两个序 列共有的排列顺序,这是序列相似程度的一种 定性描述
通过比较相似的蛋白质序列,如肌红 蛋白和血红蛋白,可以发现由于基因复 制而产生的分子进化证据。
通过比较来自于不同种属的同源蛋白质, 即直系同源蛋白质,可以分析蛋白质甚 至种属之间的系统发生关系,推测它们 共同的祖先蛋白质。
生物分生
蛋白质序列数据
物
分
子
生物分子结构数据
多重序列比对研究的是多个序列的共性。序列 的多重比对可用来搜索基因组序列的功能区域, 也可用于研究一组蛋白质之间的进化关系。
发现同源分子
3、 基因组序列分析
遗传语言分析——天书 基因组结构分析 基因识别 基因功能注释 基因调控信息分析 基因组比较
4、基因表达数据的分析与处理
基因表达数据分析是目前生物信息学研究的热 点和重点
概念(广义) 生
生物体系和过程中信息
命
的存贮、传递和表达
科
学
中
信息科学
的
信
细胞、组织、器官的生理、病理 、药理过程的中各种生物信息
息 科 学
广义的说,生物信息不仅包括基因组信息,如 基因的DNA序列、染色体定位,也包括基因产 (蛋白质或RNA)的结构和功能及各生物种间 的进化关系等其他信息资源。生物信息学既涉 基因组信息的获取、处理、贮存、传递、分析 和解释,又涉及蛋白质组信息学如蛋白质的序 列、结构、功能及定位分类、蛋白质连锁图、 蛋白质数据库的建立、相关分析软件的开发和 应用等方面,还涉及基因与蛋白质的关系如蛋 白质编码基因的识别及算法研究、蛋白质结构、 功能预测等,另外,新药研制、生物进化也是 生物信息学研究的热点。
20世纪80年代以后,出现一批生物信息服务机 构和生物信息数据库
20世纪90年代后 ,HGP促进生物信息学的迅速 发展
关于生物信息学发展历程中的重要大事, 请参见下面两个网站的介绍:
/Education /BLASTinfo/milestones.html、
1.3 基因组整体功能及其调节网络的系统把握
把握生命的本质,仅仅掌握基因组中部分基 因的表达调控是远远不够的,因为生命现象是 基因组中所有功能单元相互作用共同制造出来 的。基因芯片技术由于可以监测基因组在各种 时间断面上的整体转录表达状况,因此成为该 领域中一项非常重要和关键的实验技术,对该 技术所产生的大量实验数据进行高效分析,从 中获得基因组运转以及调控的整体系统的机制 或者是网络机制,便成了生物信息学在该领域 中首先要解决的问题。
1.2 非蛋白编码区生物学意义的分析
非蛋白编码区约占人类基因组的95%,其生物 学意义目前尚不是很清楚,但从演化观点来看, 其中必然蕴含着重要的生物学功能,由于它们并 不编码蛋白,一般认为,它们的生物学功能可能 体现在对基因表达的时空调控上。
对非蛋白编码区进行生物学意义分析的策略有
两种,一种是基于已有的已经为实验证实的所有 功能已知的DNA元件的序列特征,预测非蛋白编 码区中可能含有的功能已知的DNA元件,从而预 测其可能的生物学功能,并通过实验进行验证; 另一种则是通过数理理论直接探索非蛋白编码区 的新的未知的序列特征,并从理论上预测其可能 的信息含义,最后同样通过实验验证。
生物分子
数据
+
计算机 计算
2、生物分子信息
分子 细胞
生物信息的载体
存贮、复制、传递和表达 遗传信息的系统
生物信息学主要研究两种信息载体
DNA分子 蛋白质分子
Protein Machines
From the Cell to Protein Machines
生物分子至少携带着三种信息
蛋白质的生物功能由蛋白质的结构所决定 ,蛋 白质结构预测成为了解蛋白质功能的重要途径
蛋白质结构预测分为:
二级结构预测 空间结构预测
蛋白质折叠
二级结构预测
在一定程度上二级结构的预测可以归结为模式识别问题
在二级结构预测方面主要方法有:
立体化学方法 图论方法 统计方法 最邻近决策方法 基于规则的专家系统方法 分子动力学方法 人工神经网络方法
2、蛋白质组
基因组对生命体的整体控制必须通过它所表达的全部 蛋白质来执行,由于基因芯片技术只能反映从基因组到 RNA的转录水平上的表达情况,由于从RNA到蛋白质还有 许多中间环节的影响,因此仅凭基因芯片技术我们还不 能最终掌握生物功能具体执行者——蛋白质的整体表达 状况;
因此,近几年在发展基因芯片的同时,人们也发展了 一套研究基因组所有蛋白质产物表达情况——蛋白质组 研究技术,从技术上来讲包括二维凝胶电泳技术和质谱 测序技术。通过二维凝胶电泳技术可以获得某一时间截 面上蛋白质组的表达情况,通过质谱测序技术就可以得 到所有这些蛋白质的序列组成。这些都是技术实现问题, 最重要的就是如何运用生物信息学理论方法去分析所得 到的巨量数据,从中还原出生命运转和调控的整体系统 的分子机制。