当前位置:文档之家› 生物信息学的现状与未来_郑伟国

生物信息学的现状与未来_郑伟国

1995 年 , 在人类基因组计划(HGP)第一个 5 年 总结报告中给出了一个较为完整的生物信息学定 义 :生物信息 学是包含 生物 信息的 获取 、处理 、储 存 、传递 、分析和解释的所有方面的一门学科 。
纵观生物信息学丰富多彩的相关学科 、研究领 域及其由信息流方向主导的研究过程 , 现归纳出如 下定义 :生物信息学是一门采用计算机技术和信息 论方法对蛋白质及其核酸序列等多种生物信息采 集 、加工 、储存 、传递 、检索 、分析和解读的科学 , 是 现代生命科学与信息 科学 、计算机科学 、数学 、统计 学 、物理学和化学等学科相互渗透而形成的交叉学科 。
图 1 结构基因组研究生产线
2 .1 .2 比较基因组学和模式生物体
鉴定基因功能最有效的方法 是观察基因表达
· 42 · ห้องสมุดไป่ตู้口PORT岸H
卫生控制 EALTH CONTROL
第 9 Vol
卷 第5 .9 No
期 .5
被阻断或增加后在细胞和整体水平上所产生的表 型变化[ 12] , 这就需要建 立一个有效的 模式生物体 (model organism)。 迄今为止 已有多种生物 被当作 模型使用 , 如大肠杆菌 、酿酒酵母 、美丽线虫 、果蝇 、 小鼠等 , 但在研究人类疾病和哺乳动 物发育时 , 小 鼠显得更有优势 。
术紧密 结 合 而形 成 的 交叉 学 科 ———生 物 信息 学 (Bioinformatics)应运而生 , 并大大 推动了相 关研究 的开展 , 被誉为“解读生命天书的慧眼”[ 1] 。
生物信息学自产生以来大致经历了前基因组
时代 、基因组时代和后基因组时代三个发展阶段 。 前基因组时代的标志性工作包括生物数据库的建 立 、检索工具的开发以及 DNA 和蛋白 质序列分析 等 ;基因组时代 的标志性 工作包括 基因识别 与发 现 、网络数据库系统的建立和交互界面工具的开发 等 ;后基因组时代的标志则是大规模基因组分析 、 蛋白质组分析以及各种数据的比 较与整合 。 三个 阶段虽无明显的界限 , 却真实地反映了整个研究重 心的转移变化历程 。
· 41 ·
一种生物的全部遗传构成称为该种生物的基 因组 , 有关基因组的研究称为基因组 学 , 它包含对 基因组信息的获取 、处理 、存储 、分配和解释等 。 其 中 , 序列基因组学(Sequence genomics)主要研究测序 和核苷酸序列 , 为绘制图谱提供材料[ 2] ;结构基因 组学(Structural genomics)着 重于遗传 图谱 、物理图 谱和测序等方面的研 究 ;功能基因组 学(Functional genomics)则研究以转录图为基础的基 因组表达图 谱[ 3 , 4] ;比较基因组学(Comparative genomics)的研究 内容则包括对不同进化阶段基因组的比较和不同 种群和群体基因组的比较[ 5] 。
摘要 生物信息学已成为整个生命科学发展的重要组成部分 , 是生命科学研究的前沿领域 。 现对生物信息学研究对象 、重要技术 、数据库建设及其研究现状等方面进行了综述 , 并展望生物信 息学的发展前景 。
关键词 生物信息学 基因组学 蛋白组学 功能蛋白质组学
Abstract Bioinformatics is an important component of the whole life science , has become the advanced research domain of life science .These paper overviews on its research subject , the main technolosies , its current status in erection of biology database and research work , also propect its foreground .
微点阵技术是指将几百甚至上万个寡核苷酸 或 DNA 密集排列在硅片 、玻璃片 、聚丙烯等固相支 持物上 , 作为探针 。 把要研究的样品(称为靶 DNA) 标记后与微点阵进行杂交 , 用合适的检测系统进行 检测 。 根据杂交信号强弱及探针位置和序列 , 确定 靶 DNA 的表达情况以及突变和多态性的存在 。 根 据制作方法的不同 , 微阵列技术可分为合成和点样 两大系别 。
3 .研究现状
3 .1 生物学数据库的建设 数据库是生物信息学的主要内容 , 至今世界各
国纷纷建立了生物信息数据库[ 17] , 其数量呈爆炸性 增长 , 几乎涉及了生命科学的各个研究领域 。目前 主要有美国国立卫生研究院全国生物技术研究中 心(NCBl)的 GenBank(www .ncbi .nlm .nih , gov);欧洲 生物信息学研究所(EBl)的(EMBL)(www .emblheidelberg .de)数据库 ;日本国立遗传学研究所(NIG)的 DNA 数据库(DDBJ)(www .nig .ac .jp)(瑞士生物信息 学研究所(SIB)的 SWISSPROT(www .expasy .ch/sprottop .html);美国 Brookhaven 国家实验室的 PDB(www . rcsb .org/ pdb/);NCBI 开发的 ENTERZ 系统综 合了 上述各大 数据库的信息和 MEDLINE 的文献信 息 。 目前我国在生物信息数据库领域的主要任务是 :实 验室数据信息化管理 、数据库标准化 、数据库共享 与集成 ;建立基因信息的评估与检测系统 ;构建我 国自己特殊需 要的二 级 、三级 数据库和 专业 数据 库 , 并与国际常用数据库有效连接和及时更新[ 18] 。
Key words Bioinformatics Genomics Proteonic Functional proteoni
随着生物科学技术的迅猛发展 , 生物信息数据 资源的增长呈现爆炸之势 , 同时计算机运算能力的 提高和国际互联网络的发展使得对大规模数据的
贮存 、处理和传输成为可能 , 为了快捷方便地对己 知生物学信息进行科学的组织 、有效的管理和进一 步分析利用 , 一门由生命科学和信息科学等多学科 相结合特别是由分子生物学与计算机信息处理技
所有生物都可以通过一株共同的进化树而联 系在一起 , 因此研究一个生物可为其它生物提供有 用的信息 。人 类基因组计划(HGP)已 把比较基因 组学(Comparative genomics)作为今后工作重点之一 , 预计到 2005 年完成小鼠的 全基因组测序 , 同时逐 渐从结构的比较转向功能的比较[ 13] 。 2 .1 .3 功能基因组与微点阵 、SAGE 技术
2 .2 功能基因组学与诱变技术 2 .2 .1 定向诱变(targeted mutagenesis) 定向诱变 是利用 同 源重 组 技术 , 使胚 胎 干细 胞(Embryonic stemcell EScell)内目的基因产生定点突变 。 这些突 变可进一步用于基因敲除 、转基因动 物 、显性负突 变等研究 。 近几年发展了许多构建靶结构的新方 法 , 如酿酒酵母中微同源重组(micro homologous re-
对生物信息学的定义 , 国内外至今尚未形成统 一的认识 。以下是一些较有影响的看法 :
美国国家基因组研究中心认为 , 生物信息学是
一个代表生物学 、数学和计算机的综合力量的新兴 学科 。
北京生物技术和新医药产业中心认为 , 生物信 息学是在生命科学研究中以计算机为工具对生物 信息进行储存 、检索和分析的科学[ 2] 。
· 40 · 口PORT岸H
卫生控制 EALTH CONTROL
第 9 Vol
卷 第5 .9 No
期 .5
生物信息学的现状与未来
郑伟国 郭 英 中国民用航空学院理学院(300300) 常春艳 天津出入境检验检疫局(300456)
SAGE 技术的主要理论依据有两个 :一个 9 ~ 10 碱基的短核苷酸序列标签包含有足够信息 , 能够唯 一确认一种转录物 ;如果能将 9 碱基的标签集中于 一个克隆中进行测序 , 并将得到的短序列核苷酸顺 序以连续的数据形式输入计算机中进行处理 , 就能 对数以千计的 mRNA 转录物进行 分析 。 这种方法 在癌组织基因的差异表达研究方面有独到的优点 , 有助于发现肿瘤特异基因 。
combination)[ 15] 。 2 .2 .2 表型诱变(phenotype -driven mutagenesis) 定向诱变用于已知基因的突变 , 而表型诱变是用于 未知基因 。 主要优点是无需知道 哪个基因以及这 些基因的何种突变导致特定的表型或疾病[ 16] 。 用 表型诱变剂进行诱变后 , 可以用筛查整个基因组的 办法来寻找新的显性或隐性突变 。
2 重要技术
2 .1 .1 结构基因组学与生产线模式 把结构基因组的研究机构称之为 蛋白质结构
工厂 , 而把它的研究流程称为生产线(见图 1)[ 10] 。 这一过程是以传统的结构解析法为基础设计的 , 但 与传统的结构解析法相比 , 生产线模式增添了自动 化操作 , 使整个过程得以快速高效地完成 , 这也使 得大规模解析蛋白质结构得以实现 。 首好的基础 , 而与表达 、纯化 及结构测定相关的技术的发展与设备的改进也为 这一过程自动化提供了良好的条件 。 此过程中的 重要步骤 , 蛋白质的结构测定技术 ———X 光衍射和 核磁共振光谱法(NMR)[ 11] , 近几年也有了很多新的 改进 , 出现了很多新的功能完善的仪器 , 为生产线 的顺利完成提供了设备保障 。
功能基因组学(Functional genomics)的研究通常 被称为后基因组学(Postgenomics)研究 , 它是利用结 构基因组学提供的信息和产物 , 系统地研究基因功 能 , 以高通量 、大规模实验方法及统计与计算机分 析为特征[ 14] 。高通量的基因表达分析方法需要借 助新技术 ———微点阵(micro array)技术和基因表达 系列分析(Serial analysis of gene expression SAGE)。
相关主题