当前位置:文档之家› 生物信息学 第一章 生物信息学概述

生物信息学 第一章 生物信息学概述


生物分子
一级结构 二级结构 三级结构
一级结构
二级结构 三级结构
四级结构
DNA
基因的DNA序列
对 应 遗 传
前体RNA mRNA




蛋白质序列
多肽链
三个重要的信息
(1)遗传信息的载体——DNA
DNA通过自我复制,在生物体的繁衍过程中传递遗传信息; 基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出 与亲代相似的生物性状。 转录 复制 翻译 RNA
• 生物信息学?--新兴的交叉学科
Mathematical sciences Computer sciences
Life sciences
生物学背景?★★★ 分子生物学/基因工程 数学?★ 统计学,模型,算法 计算机科学背景?

Linux/Perl/PHP/JAVA/C++/Visual Basic
12
13 14 15 16
MPIMG
GBF Stanford (Davis) Keio
17,21,X
21, reg of 9 8 2,6,8,22,21
6.9
6 23 30 2671 2671Mb
40
12
40
50 137
0.3
0.3 0.29 0.23 0.17 32.64Mr
11 27 4663Kr 2950Kr
生物信息学
Bioinformatics
生ቤተ መጻሕፍቲ ባይዱ科学与技术学院
初步计划讲授内容
第一章 概论(2) 第二章 生物学基础(略) 第三章 生物信息数据库及其信息检索(4-6) 第四章 序列比对与算法(6) 第五章 核酸序列分析(6) 第六章 蛋白质结构预测和分子设计(4-6) 第七章 基因组信息学(4) 第八章 蛋白质组信息学(4) 第九章 生物信息学前沿(自学)
之荣 译. 化学工业出版社, 2006
网上资源
1、华中农业大学国家精品课程生物信息学网站
(/kech/swxxx/index.htm) 2、西南交通大学生物信息学精品课程网站
(/C54/Course/Index.htm)
生物信息学涉及的生物分子数据库
DNA序列数据 最基本
生 物 分 子 生物分子结构数据 蛋白质序列数据 直观展示 生命体系 千姿百态 的变化

息 生物分子功能数据 复杂剖析
生物分子数据与计算机计算
生物分子数据 + 计算机计算
特征: 生物分子信息数据量大 生物分子信息复杂 生物分子信息之间存在着密切的联系
法和生物信息分析方法
1970 Needleman-Wunsch提出序列比对算法 1970 Gibbs和McIntyre发表矩阵打点作图法 1972 Gatlin将信息论引入序列分析,证实自然的生物分子序列是高度非随机的
1977 出现将DNA序列翻译成蛋白质序列的算法。
1975 Pipas和McMahon首先提出运用计算机技术预测RNA二级结构 1978 Gingeras等研制出核酸序列中限制性酶切位点的识别软件
参考书籍
1、《生物信息学教程》蔡禄. 化学工业出版社, 2007 2、《生物信息学》(第二版)张阳德主编. 科学出版社, 2009 3、《生物信息学》陶士珩主编. 科学出版社, 2007 4、《生物信息学应用技术》王禄山, 高培基.化学工业出版社, 2007
5、《生物信息学与功能基因组学》(美)乔纳森•佩夫斯纳 著; 孙
特征: 信息存储量大 计算性能高速、有效 信息交流方便
生物信息学的发展历史
生物科学和 技术的 发展 人类基因组 计划的 推动
生物信息学 基本思想的产生 二十世纪 50年代
生物信息学 的迅速发展 二十世纪 80-90年代
(1)前基因组时代(20世纪90年代前)
20世纪50年代,生物信息学开始孕育 20世纪60年代,生物分子信息在概念上将计算生物学和计算 机科学联系起来,是生物信息学形成雏形的阶段
3、东南大学生物信息学网络学习平台 (/chenyuan/xsun/courses_on_net.htm)
4、美国国立生物技术信息中心
( )
期刊
《生物信息学》、《Bioinformatics》、《BMC Bioinformatics 》
动的机器
生物分子数据及其关系
• 第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大
多数DNA非编码区域的功能还知之甚少
• 对于第二部密码,目前则只能用统计学的方法进行分析 • 无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的 生物分子数据之中。
生物分子数据是宝藏,
生物信息数据库是金矿,等待我们去挖掘和利用。
1962 Zucherkandl和Pauling提出分子进化理论
1967 Dayhoff研制出蛋白质序列图集,后演变为著名的蛋白质信息源PIR
20世纪70年代,核酸测序技术成熟,开始了少量的基因组测
序工作,标志着生物信息学的真正开端

20世纪70年代到80年代初期,出现了一系列著名的序列比较方
1981 Smith-Waterman算法出现
1981 Doolittle提出序列模式的概念 1983 Wilbur和Lipman提出序列数据库的搜索算法
1985 快速的蛋白质序列相似性搜索程序FASTP/FASTN发布
1988 Pearson和Lipman发表著名的序列比较算法FASTA

20世纪80年代以后,出现一批生物信息服务机构和生物信息数
Sanger, UK
大规模测序基本策略

逐个克隆法:小片段针对
图谱的!! 全基因组鸟枪法:大片段 测序 - 组装(美国 Celera 公 司)


Contig : 重 叠 群 , 基 因 组
测序中将许多序列片段经 过比对找到重叠区 , 从而连 接成的长片段。
A
B C
D
E
FG H I
J
K
L
CONTIG
biology
mathematics
physics
Natural sciences
Social sciences
sciences
arts
religions
Human civilization
Non-human world
Universe (宇宙=空间+时间)
生物信息学主要研究两种信息载体
•1、DNA分子 •2、蛋白质分子
75
110 40 13687Kr
U. Wash (Hood LAB) 14,15 Total
人类基因组计划给生物信息学提出挑战
• 随着实验数据和可利用信息急剧增加,信息的管理和分析成
为HGP的一项重要的工作
利用数学模型 和人工智能技术
研究基因组数据 之间的关系
分析现有的 基因组数据
认识生命的本质
发现生物学 规律,
• 生物信息学的学习人员: 1)学习生物信息学是为了发展生物信息学 —— 计算机科学家 2)学习生物信息学是为了应用生物信息学 —— 生物学家 我们属于……
Bioinformatics in the Universe
biostatistics
bioinformatics
Computational biology

20世纪90年代后,HGP促进生物信息学的迅速发展,标志工作
是人类基因组测序,基因寻找和识别等。
1986 “基因组学”概念产生,研究基因组的作图、测序和分析 1990国际人类基因组计划启动
1993成立Sanger中心,专门从事基因组研究
1995第一个细菌基因组测序完成 1996酶母基因组测序完成
1998第一个多细胞生物——线虫基因组测序
据库
1982 GenBank数据库(Release3)公开 1986 日本核酸序列数据库DDBJ诞生 1986 出现蛋白质数据库SWISS-PROT 1988 美国国家生物技术信息中心NCBI创立 1988 成立欧洲分子生物学网络(EMBnet),专门发布各种生物数据库
(2)基因组时代(20世纪90年代后至21世纪初)
生物信息学概述
什么是生物信息学:
生物信息学(Bioinformatics):
• 是研究生物信息的采集,处理,存储,传播,分析和解释等
各方面的学科。 • 是随着生命科学和计算机科学的迅猛发展而快速突起的一门 学科。 • 是生命科学、生物统计学、现代数学、信息科学和计算机科 学的结合学科,可揭示大量而复杂的生物数据所蕴藏的生物 学奥秘。
GAP
基因组比较
高通量测序技术 核苷酸序列 注释、解析 蛋白质序列 预测 蛋白质结构 验证
蛋白质功能关系
基于生物信息学的新药设计
生物信息学的主要研究内容
(1)生物分子数据的收集与管理
EMBL
基因组 数据库 GenBank DDBJ SWISS-PROT 蛋白质 序列 数据库
EMBL欧洲分子生物学实验室,于1974年由欧洲14个国家加 上亚洲的以色列共同发起建立,包括一个位于德国 Heidelberg的核心实验室,三个位于德国Hamburg,法国 Grenoble及英国Hinxton的研究分部。 GenBank是美国国家生物技术信息中心建立的DNA序列数据 库,从公共资源中获取序列数据,主要是科研人员直接提供 或来源于大规模基因组测序计划。 DDBJ日本DNA数据库,于1984年建立,是世界三大DNA 数 据库之一,与NCBI的GenBank,EBI的EMBL数据库共同组 成国际DNA数据库。 SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生 物信息学研究所(EBI)维护。 PIR全称The Protein Information Resource,是一个集成了 关于蛋白质功能预测数据的公共资源的数据库,其目的是支 持基因组/蛋白质组研 究。PIR与MIPS(the Munich Information Center for Protein Sequences)、JIPID(the Japan International Protein Information Database)合作, 共同构成了PIR-国际蛋白质序列数据库(PSD):一个主要 的已预测的蛋白质数据库,包括250000个蛋白。
相关主题