http://www.paper.edu.cn 生物信息学的现状与未来
郑伟国,郭 英 中国民用航空学院理学院 天津,300300 weiguozhejiang@eyou.com
摘 要:生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。
本文对生物信息学研究对象、重要技术、数据库建设及其研究现状等方面进行了综述,并展望生物信息学的发展前景。 关键词:生物信息学;基因组学;蛋白组学;功能蛋白质组学;
随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,为了快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用,一门由生命科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形成的交叉学科——生物信息学[1](Bioinformatics)应运而生,并大大推动了相关研究的开展, 被
誉为“解读生命天书的慧眼”。 生物信息学既是一门工程技术又是一门科学,自产生以来,大致经历了前基因组时代、基因组时代和后基因组时代三个发展阶段。前基因组时代的标志性工作包括生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等;基因组时代的标志性工作包括基因识别与发现、网络数据库系统的建立和交互界面工具的开发等;后基因组时代的标志则是大规模基因组分析、蛋白质组分析以及各种数据的比较与整合。这三个阶段虽无明显的界限,却真实地反映了整个研究重心的转移变化历程。 对生物信息学的定义,国内外众说纷纭,至今尚未形成统一的认识。以下是一些较有影响的意见: 美国国家基因组研究中心认为,生物信息学是一个代表生物学、数学和计算机的综合力量的新兴学科。 北京生物技术和新医药产业中心认为,生物信息学是在生命科学研究中以计算机为工具对生物信息进行储存、检索和分析的科学[2]。
1995年,在美国人类基因组计划(HGP)第一个5年总结报告中给出了一个较为完整的生物信息学的定义:生物信息学是包含生物信息的获取、处理、储存、传递、分析和解释的所有方面的一门学科。 从广义上讲,生物信息学是用数理和信息科学的观点、理论和方法去研究生命现象,组织和分析大量生物学数据的一门学科;从狭义上讲,生物信息学主要是基因组信息学,它以计算机及互联网为主要手段,并开发各种软件,对与日俱增的大量DNA和蛋白质序列及结构进行收集、整理、发布、提取、加工和分析,从而破译DNA序列中隐藏的信息,揭示出人体生理和病理过程的分子基础,并逐步认识生命起源、进化、遗传和发育的本质,为人类疾病的预测、 - 1 -http://www.paper.edu.cn 诊断、预防和治疗提供最为合理和有效的方法或途径。 纵观生物信息学丰富多彩的相关学科、研究领域及其由信息流方向主导的研究过程,笔者归纳出如下定义:生物信息学是一门采用计算机技术和信息论方法对蛋白质及其核酸序列等多种生物信息采集、加工、储存、传递、检索、分析和解读的科学,是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。 1. 研究对象
生物信息学主要包括基因组学(Genomics)和蛋白组学(Proteomics),其实质就是分析和解读核酸和蛋白质序列中所表达的结构与功能的生物信息。 1.1基因组学 一种生物的全部遗传构成称为该种生物的基因组,有关基因组的研究称为基因组学,它包含对基因组信息的获取、处理、存储、分配和解释等。其中,序列基因组学(Sequence genomics)主要研究测序和核苷酸序列[3],为绘制图谱提供材料;结构基因组学(Structural genomics)着
重于遗传图谱、物理图谱和测序等方面的研究;功能基因组学(Functional genomics)则研究以转录图为基础的基因组表达图谱[3,4];比较基因组学(Comparative genomics)的研究内容则包
括对不同进化阶段基因组的比较和不同种群和群体基因组的比较[5]。 1.2蛋白组学 由于基因表达水平并不能代表细胞中活性蛋白质的数目(准确的说是开放读框‘ORF’的数目),基因组序列并不能描述活性蛋白质所必需的翻译后修饰和反映蛋白质种类和含量的动态变化过程,澳大利亚学者Wasinger等[6]在1994年首次提出了蛋白组(Proteme)的概念。
在一定条件下某一基因组蛋白质表达的数量类型称为蛋白组,代表这一有机体全部蛋白质组成及其作用方式,有关蛋白组的研究称为蛋白组学。其中,蛋白组的研究技术与方法、双向凝胶电泳图谱以及对不同条件下蛋白组变化的比较分析是蛋白组学的主要研究内容[7]。
1.3两者的关系 基因组基本上是固定不变的,而蛋白质组是动态的,具有时空性和可调节性,能反映某基因的表达时间、表达量,以及蛋白质翻译后的加工修饰和亚细胞分布等,因此提出了功能蛋白质组学(Functional proteonic)的概念,它是指在特定时间、特定环境[8]和实验条件下[9]基因组
中活跃表达的蛋白质。 2. 重要技术
2.1.1结构基因组学与生产线模式 我们把结构基因组的研究机构称之为蛋白质结构工厂,而把它的研究流程称为生产线[10](见下图)。这一过程是以传统的结构解析法为基础设计的,但与传统的结构解析法相比,
生产线模式增添了自动化操作,使整个过程得以快速高效地完成,这也使得大规模解析蛋白质结构得以实现。首先是基因组计划的圆满完成、cDNA文库的日趋完善等为结构基因组研究提供了较好的基础,而与表达、纯化及结构测定相关的技术的发展与设备的改进也为这一过程自动化提供了良好的条件。此过程中的重要步骤,蛋白质的结构测定技术——X光衍射和核磁共振光谱法(NMR)[11],近几年也有了很多新的改进,出现了很多新的功能完善的仪器,
- 2 -http://www.paper.edu.cn 为生产线的顺利完成提供了设备保障。
原始基因组信息库 选择感兴趣的序列制造DNA并连接标记表达系统中插入DNA
蛋白结构 在培养物中
大量生产蛋白
用亲和层析或其它方法纯化蛋白NMR色谱仪
蛋白结晶 X光衍射 数 据分 析
结构基因组研究生产线 2.1.2比较基因组学和模式生物体 鉴定基因功能最有效的方法是观察基因表达被阻断或增加后在细胞和整体水平上所产生的表型变化[12],这就需要建立一个有效的模式生物体(model organism)。迄今为止已有多种生物被当作模型使用,如大肠杆菌、酿酒酵母、美丽线虫、果蝇、小鼠等,但在研究人类疾病和哺乳动物发育时,小鼠显得更有优势。 所有生物都可以通过一株共同的进化树而联系在一起,因此研究一个生物可为其它生物提供有用的信息。人类基因组计划(HGP)已把比较基因组学(Comparative genomics)作为今后工作重点之一,预计到2005年完成小鼠的全基因组测序,同时逐渐从结构的比较转向功能的比较[13]。
2.1.3功能基因组与微点阵、SAGE技术 功能基因组学(Functional genomics)的研究通常被称为后基因组学(Postgenomics)研究,它是利用结构基因组学提供的信息和产物,系统地研究基因功能,以高通量、大规模实验方法及统计与计算机分析为特征[14]。高通量的基因表达分析方法需要借助新技术——微点阵
(micro array)技术和基因表达系列分析(serial analysis of gene expression,SAGE)。 微点阵技术是指将几百甚至上万个寡核苷酸或DNA密集排列在硅片、玻璃片、聚丙烯等固相支持物上,作为探针。把要研究的样品(称为靶DNA)标记后与微点阵进行杂交,用合适的检测系统进行检测。根据杂交信号强弱及探针位置和序列,确定靶DNA的表达情况以及突变和多态性的存在。根据制作方法的不同,微阵列技术可分为合成和点样两大系别。 SAGE技术的主要理论依据有两个:⑴一个9~10碱基的短核苷酸序列标签包含有足够信息,能够唯一确认一种转录物;⑵如果能将9碱基的标签集中于一个克隆中进行测序,并将得到的短序列核苷酸顺序以连续的数据形式输入计算机中进行处理,就能对数以千计的mRNA
- 3 -http://www.paper.edu.cn 转录物进行分析。这种方法在癌组织基因的差异表达研究方面有独到的优点,有助于发现肿瘤特异基因. 2.2 功能基因组学与诱变技术 2.2.1定向诱变(targeted mutagenesis):定向诱变是利用同源重组技术,使胚胎干细胞(embryonic stemcell,EScell)内目的基因产生定点突变。这些突变可进一步用于基因敲除、转基因动物、显性负突变等研究。近几年发展了许多构建靶结构的新方法,如酿酒酵母中微同源重组[15](micro homologous recombination)。
2.2.2 表型诱变(phenotype-driven mutagenesis):定向诱变用于已知基因的突变,而表型诱变是用于未知基因。主要优点是无需知道哪个基因以及这些基因的何种突变导致特定的表型或疾病[16]。用表型诱变剂进行诱变后,可以用筛查整个基因组的办法来寻找新的显性或隐
性突变。 3.
研究现状
3.1 生物学数据库的建设
数据库是生物信息学的主要内容,至今世界各国纷纷建立了生物信息数据库[17],其数量呈爆炸性增长,几乎涉及了生命科学的各个研究领域。目前主要有美国国立卫生研究院全国生物技术研究中心(NCBI)的GenBank(http://www.ncbi.nlm.nih.gov);欧洲生物信息学研究所(EBI)的(EMBL)(http://www.emblheidelberg.de)数据库;日本国立遗传学研究所(NIG)的DNA数据库(DDBJ)(http://www.nig.ac.jp)瑞士生物信息学研究所(SIB)的SWISSPROT (http://www.expasy.ch/sprottop.html);美国Brookhaven国家实验室(BNL)的PDB(http://www.rcsb.org/pdb/);NCBI开发的ENTERZ系统综合了上述各大数据库的信息和MEDLINE的文献信息。目前我国在生物信息数据库领域的主要任务[18]是:实验室数据信息化
管理、数据库标准化、数据库共享与集成;建立基因信息的评估与检测系统;构建我国自已特殊需要的二级、三级数据库和专业数据库,并与国际常用数据库有效连接和及时更新。 3.2 新型生物信息学研究方法 近年来,生物信息学家已经取得了多项研究成果,确定了数千个基因的功能,其中包括搜索碱基对序列匹配的有效方法,统计学工具,利用新的计算机工具组装整个基因组等,但生物信息学的发展面临新的挑战,迫切需要新的研究手段和研究方法。加利福尼亚大学能源系结构生物学和分子医学实验室的主任David Eisenberg暗示,新的生物信息学方法[19],包