当前位置:文档之家› 人类基因组计划和生物信息学

人类基因组计划和生物信息学

人类基因组计划和生物信息学徐新来 安道昌 王 芷3 李 青 付红波(中国生物工程中心 北京100081)(3中国科技信息研究所 北京100038)提要:介绍人类基因组计划和生物信息学,阐述了两者的关系,提出了在人类基因组计划中发展生物信息学的策略。

一、引 言人类基因组计划(H um an Genom e P ro 2ject ,H GP )是美国在1990年提出实施的一项大科学计划,在世界各国引起了很大反响。

计划的提出旨在对人类基因组3×109个脱氧核苷酸对进行作图和测序,进而解读和破译生老病死以及语言、记忆和疾病发生的遗传信息。

而生物信息学是集生物学、数学、信息学、计算机科学一体化的一门新的学科。

早在H GP 提出时就预示到生物信息学的重要性,当时就成立了有42位著名专家组成的生物信息学任务组。

随着人类基因组计划的进展,基因组的数据和信息大量,迅速地增加,信息的收集、储存、分发、分析的管理越来越显得紧迫和重要。

利用数学模式和计算机处理数据的功能来处理和分析大量增加的人类基因组信息的结果,使人类基因组计划和生物信息学紧紧地结合起来了,而且随着两者的紧密结合和互相渗透,人类基因组计划的前进步伐会大大加快,从而提前完成计划,为人类造福。

二、从人类基因组计划看生物信息学 美国在1990年率先提出H GP ,计划用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp )的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立)、测序和基因识别。

其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。

遗传图谱、物理图谱的建立是测序的必要条件;遗传图谱是根据遗传连锁标志之间的重组频率来确定它们的距离,遗传图谱的建立为基因识别和完成基因定位创造了条件。

物理图谱是以核苷酸的长度为单位绘制而成,详细描述染色体上界标间的距离,主要是编码蛋白质的外显子和排序DNA 克隆库组成,这些DNA 分子克隆库相互交错、重叠。

人类基因组全部DNA 序列的测定是H GP 的核心部分;随着遗传和物理图谱的完成和即将完成,测序就成为今后重中之重的工作。

而大规模测序技术的改进及分析大片段DNA 序列的生物信息技术的进步,对完成人类基因组全部核苷酸顺序测定起着决定性作用。

测序的完成依赖物理图谱上的排序的DNA 片段分子克隆,这些分子图谱通常是在较短的时间由一个研究组从单一分离群体中获得的,为了充分利用所有资料信息,要对其全部标记的同时进行分析,这种分析涉及十分庞杂和巨大的计算,手工无法完成。

基因识别是H GP 的重要内容之一;目的是要识别全部人类的基因,即基因组在生命活动中发生转录表达的DNA 片段,并对其结构进行研究。

目前常采用的有二种方法:一是从基因组顺序中识别那些转录表达的DNA 片段;二是从c D 2NA 文库中挑取并克隆。

两种方法都必须依靠生物信息学的帮助即信息系统的建立;前者需要对基因组进行分析,后者要对基因文库进行分析,甚至还要进行分类分型,建立二级库,才能有效地挑取到所需要的DNA 分子克隆。

模式生物基因组在H GP 中占有重要的位置;模—06—高技术通讯 1998181式生物基因组结构相对比较简单、单位DNA 片段上基因的密度高,易于基因的识别。

从进化角度讲,动物的许多基因有很大的同源性,对模式生物基因的分析有助于人类基因的结构与功能的阐明。

在这种背景下生物信息学的重要性便在基因组计划提出后真正显示出来了。

H GP的提出和实施,实验的数据和信息急剧大量的增加,信息的管理和分析成为一项重要的研究内容。

生物信息学以基因组信息学为核心,主要任务是收集、储存、分发基因组的数据和信息,管理和分析、处理基因组及相关的蛋白质、m RNA 的信息,根据基因组数据和信息的比较分析,发现新的基因,并对基因结构和功能进行研究。

信息的收集、储存、分发、分析是基因组计划最初提出时确定的任务,计划实施后,每天都有上万的数据,数据的取舍非常重要,数据的标准化和检验成为信息处理的第一步工作。

同时,数据必须能提供给广大的科研工作者使用,计算机管理要提供一个工作界面,才能有效地利用信息。

另外,这些数据还应可视化,方便用户使用。

生物信息学的研究更重要的作用是将原始的信息库进行分析、分类,按照需要建立具有特殊功能的二级数据库。

二级数据库是进一步研究开发基因组的重要手段,通常是封闭的,不对外开放,仅供内部使用。

随着基因组研究的发展,向功能基因组研究转化,解读生物的遗传密码成为生物信息学的又一项重要的任务。

生物信息学另一项重要任务是分析工具的研究开发,如序列相似性比较的软件。

分析软件是有效利用基因组信息的有利工具,同时分析软件也是构建二级、三级数据库的条件和手段。

分析软件还可将不同性质的数据库结合一起,如将基因组序列数据和蛋白质数据结合计算,可以推断结构和功能的关系,从而成为一种发现新基因的较为快捷的方法,有利解读全部生物遗传密码。

生物信息学发展很快,各种数据库不断涌现,数据库各有不同的特色。

美国、日本、欧盟、加拿大等国都有基因组数据库,有的是国际性的,有的是本国的,有的公开,有的不公开。

其中比较有代表性的数据库有:美国的GenB ank,欧盟的E M BL,日本的DDBJ和美国的N CB I等。

数据库的内容十分丰富,有表达序列标记数据库(dbEST),有序列标记位点数据库(dbST S),有蛋白质序列数据库、蛋白质序列功能位点数据库、还有基因图谱数据库、结构数据库等等。

各数据库的容量也在不断扩大,根据GenB ank1997年11月统计,该库已有100多万条人类核酸序列记录,近5万条蛋白质记录。

三、生物信息学发展现状 随着信息学大环境的改善,如信息高速公路、国际互联网的发展,生物信息学发展迅速。

美国、日本及欧洲各国的生物信息学已相继在In ternet上建立了各自的网络节点,进行管理大型数据库,为研究人员提供研究数据的分析、处理、采集、交换的服务。

国际互联网所到之处,都有各种研究机构的联网、数据库的建立,开展生物信息学研究。

各种数据库各具特色: GenB ank、E M BL、DDBJ是三大核苷酸 蛋白质数据库;GDB数据库主要收集遗传学制图的资料;CEPH的数据库收集YA C con tig; Genethon、CHL C储存遗传学标记系列; W h iethead研究所的数据库可了解全部18000个ST S及联系作图的信息;另外还有突变序列的数据库在建立之中。

在各类数据库建立的同时,数据库设计中出现了集成化趋势,集成化包括:各类数据的集成、数据库与数据分析软件的整合。

各种数据库分析、测序应用软件包也被开发出来。

除了数据库、数据分析软件的发展,生物信息学中比较基因组学的发展也较为突出。

其中河豚、鼠、猪、牛和马的基因组与人基因组的比较研究,秀丽隐杆线虫与人基因组的比较研究、酵母与人基因组的比较研究,支原体与嗜血流感杆菌基因组的比较研究,都取得了成果,从比较中分离到一些人类遗传病的候选基—16—高技术通讯 1998181因,鉴定了一些新克隆的基因,为人类基因组的分析提供了有益的数据。

随着计算机技术的发展和渗透,生物信息学在人类基因组中大规模测序的自动化控制、测序结果分析处理、序列数据的计算机管理、各类遗传图谱、物理图谱的绘制、研究数据的网络获取、分析和交换,以数据分析的结果辅助基因组研究等都发挥着不可替代的功能,显示出越来越重要的作用。

四、我们的策略 人类基因组计划和生物信息学是当今生命科学重要的课题,为全世界所关注。

由于其重大的科学意义和潜在的经济价值,积极开展有关的研究势在必行。

人类基因组计划启动时,生物信息学技术就已成为发展的重点之一,目前有关基因序列、图谱的数据信息的大量积累,使生物信息学研究在人类基因组研究中的重要性越来越突出,在今后的人类基因研究中,生物信息学是一个信息库,一种高层次研究的工具。

如果生物信息学研究发展滞后,将意味着失去信息,失去高层次、高水平研究的基础。

中国1993年开始参与H GP 研究,但由于资金技术等各种原因,其研究水平与国际同行尚有较大差距。

我国虽然早在1993年中国人类基因组计划中列入了生物信息学的内容,但真正起步可能是在1995—1996年,基础比较弱,尚处于引进国外已有数据库,为国内研究人员提供服务的阶段。

中国的人类基因组研究和生物信息学都处于一个不容乐观的现状。

如何在现有的资金、技术条件下,找到1个或2个突破口,改变落后现状,在国际同类研究领域争得一席之地,我们认为应该在策略上作些调整。

11在人类基因组研究上,找功能基因。

利用我国丰富的遗传资源和广泛的疾病谱系,从“c DNA ”入手,尽快地克隆一批新基因。

“c DNA ”又称互补DNA ,只占整个基因组DNA 很小的一部分,是编码蛋白质的,即功能基因,结合大家系和疾病谱系,才可以完成,我国在这方面具有利条件。

基因组测序是一件知识劳动密集性工作,只要我们引进技术和设备,培训一支高水平的技术队伍,利用我们的优势,就能够抢到一部分新基因。

21在引进国外数据库的同时,建立中国人基因资源数据库。

生物信息学对推进基因组的工作十分重要,充分利用国际基因信息库的信息,建立国际合作关系,在基因组研究工作的基础上,组建自己的生物信息网络,建设基因资源、基因结构的数据库。

同时,进行分析软件的开发研究,构建特殊需要的二级、三级数据库,从已知的c DNA 文库中,进行测序和功能推测研究,发现新基因,才有可能在国际人类基因组计划中占有一席之地。

31人才培养。

当务之急是对现有从事基因研究的科技人员进行生物信息学的培训。

只有有了中国自己的一支专门从事生物信息学研究的科研队伍,才能在中国人类基因组研究中做出国际领先水平的工作。

参考文献[1]刘春宇,夏家辉1国外医学遗传学分册,1996,19(5):262[2]李卫东,王明荣1国外医学遗传学分册,1996,19(5):264[3]丁达夫,梁卫平,陈洁1生物信息学,1998,50,2(3):20(上接第60页) [10]N akano T ,FujiM ,N agano K et al .N ipp on S teel T echnical R ep ort ,1987,34(7):21[11]M c D avid R M ,T hom as B G .M etallu rg ical and M aterials T ransactions B ,1996,27B :672[12]Ho B .M aster ’s thesis ,U niversity of Illi 2no is at U rbana 2Champaign ,U rbana ,I L ,1991[13]M c D avid R M .M aster ’s thesis ,U niversity of Illino is at U rbana 2Champaign ,U rbana ,I L ,1994[14]H uang X .U niversity of Illino is ,U rbana ,personal comm unicati on ,1993[15]龚家跃,吉新华,蔡中熊等1连铸机顶层保护渣热过程的三维数学模型及计算,工作报告,1997—26—高技术通讯 1998181。

相关主题