当前位置:文档之家› 生物信息学认识

生物信息学认识

浅谈生物信息学一、生物信息学产生的背景有人说,基于序列的生物学时代已经到来,尽管对“序列生物学”这一提法可能有所争议,但是今日像潮水般涌现的序列信息却是无可争辩的事实。

自从1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。

迄今已完成了约40多种生物的全基因组测序工作,人基因组约3x109碱基对的测序工作也接近完成。

至2000年6月26日,被誉为生命“阿波罗计划”的人类基因组计划,经过美、英、日、法、德和中国科学家的艰苦努力,终于完成了工作草图,这是人类科学世上又一个里程碑式的事件。

它预示着完成人类基因组计划已经指日可待。

截止目前为止,仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。

在人类基因组计划进行过程中所积累起来的技术和经验,使得其它生物基因组的测序工作可以完成得更快捷。

可以预计,今后DNA序列数据的增长将更为惊人。

生物学数据的积累并不仅仅表现在DNA序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增长。

此外,迄今为止,已有一万多种蛋白质的空间结构以不同的分辨率被测定。

基于cDNA 序列测序所建立起来的EST数据库其纪录已达数百万条。

在这些数据基础上派生、整理出来的数据库已达500余个。

这一切构成了一个生物学数据的海洋。

可以打一个比方来说明这些数据的规模。

有人估计,人类(包括已经去世的和仍然在世的)所说过的话的信息总量约为5唉字节(1唉字节等于1018字节)。

而如今生物学数据信息总量已接近甚至超过此数量级。

这种科学数据的急速和海量积累,在人类的科学研究历史中是空前的。

数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。

与正在以指数方式增长的生物学数据相比,人类相关知识的增长(粗略地用每年发表的生物、医学论文数来代表)却十分缓慢。

一方面是巨量的数据;另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量。

这就构成了一个极大的矛盾。

这个矛盾就催生了一门新兴的交叉科学,这就是生物信息学。

美国人类基因组计划实施五年后的总结报告中,对生物信息学作了以下定义:生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。

生物信息学这一名词的出现仅仅是几年前的事情,但是计算生物学这一名词的出现要早的多。

鉴于这两门学科之间并没有或难以界定严格的分界线,在这里统称为生物信息学。

生物信息学是二十世纪80年代末随着基因组测序数据迅猛增加而逐渐形成的一门交叉学科。

随着生物学和医学的迅速发张,特别市人类基因组计划的顺利推进,产生了海量的生物学数据,特别是生物分子数据的积累速度在不断地快速增加。

这些数据具有丰富的内涵,其中隐藏着丰富的生物学知识。

充分利用这些数据,通过数据分析、处理,揭示这些数据的内涵,得到对人类有用的信息,这将是生物学家和数学家所面临的一个严峻的挑战。

生物信息学是为迎接这种挑战而发展起来的一个交叉学科。

二、基因库生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解。

研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在,1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色。

1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。

与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。

1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋)。

DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对。

这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制。

他们的理论奠定了分子生物学的基础。

DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA。

DNA的复制需要一个DNA作为模板。

Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制。

Crick 于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。

经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译。

限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础。

正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然。

2001年2月,,人类基因组工程测序的完成,使生物信息学走向了一个高潮。

由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋。

毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,"生物信息学"正是从这一前提产生的交叉学科。

粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。

生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。

基因组信息学的关键是"读懂"基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。

了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律。

它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言。

生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。

《Nucleic Acids Research》杂志连续七年在其每年的第一期中详细介绍最新版本的各种数据库。

在2000年1月1日出版的28卷第一期中详细地介绍了115种通用和专用数据库,包括其详尽描述和访问网址。

迄今为止,生物学数据库总数已达500个以上。

在DNA序列方面有GenBank、EMBL和DDBJ等。

在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等。

在蛋白质和其它生物大分子的结构方面有PDB等。

在蛋白质结构分类方面有SCOP和CATH等。

基因组数据库是分子生物信息数据库的重要组成部分。

基因组数据库内容丰富、名目繁多、格式不一,分布在世界各地的信息中心、测序中心、以及和医学、生物学、农业等有关的研究机构和大学。

基因组数据库的主体是模式生物基因组数据库,其中最主要的是由世界各国的人类基因组研究中心、测序中心构建的各种人类基因组数据库。

小鼠、河豚鱼、拟南芥、水稻、线虫、果蝇、酵母、大肠杆菌等各种模式生物基因组数据库或基因组信息资源都可以在网上找到。

随着资源基因组计划的普遍实施,几十种动物、植物基因组数据库也纷纷上网,如英国Roslin研究所的ArkDB包括了猪、牛、绵羊、山羊、马等家畜以及鹿、狗、鸡等基因组数据库,美国、英国、日本等国的基因组中心的斑马鱼、罗非鱼(Tilapia)、青鳉鱼(Medaka)、鲑鱼(Salmon)等鱼类基因组数据库。

英国谷物网络组织(CropNet)建有玉米、大麦、高粱、菜豆农作物以及苜蓿(Alfalfa)、牧草(Forage)、玫瑰等基因组数据库。

除了模式生物基因组数据库外,基因组信息资源还包括染色体、基因突变、遗传疾病、分类学、比较基因组、基因调控和表达、放射杂交、基因图谱等各种数据库。

美国基因组研究所TIGR的TDB数据库包括DNA及蛋白质序列、基因表达、细胞功能以及蛋白质家族信息等,并收录有人、植物、微生物等的分类信息,是一套大型综合数据库。

此外,该数据库还包括一个模式生物基因组信息库,收录了TIGR世界各地微生物基因组信息,包括致Lyme病螺旋体(B. Burgdorferi)、流感嗜血菌(H. Influenzae)、幽门螺杆菌(H. Pylori)和生殖道支原体(M. genitalium)等,以及寄生虫数据库(T. brucei P. falciparum),人、鼠、水稻、拟南芥(A. Thaliana)等基因组信息资源,其中有些数据可以由TIGR的FTP站点下载。

GenBank核酸序列数据库涵盖了从完整基因组到单个基因等序列数据及部分注释信息,称一次数据库。

此外,还有些更有针对性的基因组资源,或称专用数据库。

这些专用数据库既包括了上述一次数据库的部分数据,也包括从其它数据库资源获得的信息或交叉链接。

这种专门数据库主要分为两大类,一类是模式生物基因组数据库,另一类则与特殊的测序技术有关。

这类数据库尽管也包含序列数据,但它们的特色主要是为某一特定的模式生物提供一个完整的数据资源,如酵母(Saccharomyces cerevisiae)、线虫(Caenorhabditis elegans)、果蝇(Drosophila melanogaster)、拟南芥(Arabidopsis thaliana)、幽门螺杆菌(Helicobacter pylori)等。

这些数据库从各个不同层次上搜集整理有关信息,以便对某个模式生物全基因组有一个更加完整的了解。

四、生物信息学的主要研究内容生物信息学主要包括以下几个主要研究领域,但是限于篇幅,这里仅列出其名称并只做简单介绍。

1、序列比对(Alignment)基本问题是比较两个或两个以上符号序列的相似性或不相似性。

序列比对是生物信息学的基础,非常重要。

两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包——BALST和FASTA,可以免费下载使用。

这些软件在数据库查询和搜索中有重要的应用。

相关主题