生物信息学发展概况及研究进展韩龙生物化学与分子生物学20102005311 概述生物信息学是在生命科学、计算机科学和数学的基础上逐步发展而形成的一门新兴的边缘学科,它以核酸和蛋白质为主要研究对象,以数学、计算机科学为主要研究手段,对生物学实验数据进行获取、加工、存储、检索与分析,从而达到揭示数据所蕴含的生物学意义的目的[1]。
生物信息学的发展大致经历了前基因组时代、基因组时代和后基因组时代。
目前,它的主要研究内容已经从对DNA和蛋白质序列比较、编码区分析、分子进化转移到大规模的数据整合、可视化,转移到比较基因组学、代谢网络分析、基因表达谱网络分析、蛋白质技术数据分析处理、蛋白质结构与功能分析以及药物靶点筛选等[1]。
在后基因组时代的今天,生物信息学已经成为目前极其热门的系统生物学研究的重要手段。
利用各种功能的软件系统平台,目前生物信息学方法主要通过序列比对与分析、功能基因组与基因表达数据的分析、蛋白质结构预测以及基于结构的药物设计等方面应用于各个生命科学研究领域。
1.1序列比对与分析序列比对是生物信息学的基础,是比较两个或两个以上符号序列的相似性或不相似性。
两个序列的比对现在已有较成熟的动态规划算法,以及在此基础上编写的比对软件包——BLAST和FASTA;两个以上序列的多重序列是生物信息学中尚未解决的一个NP完全的组合优化问题,是目前研究的热点[2]。
比较经典的算法有SAGA算法[3]、CLUSTAL算法以及隐马尔可夫模型(Hidden Markov Models,HMM)多重序列比对算法,另外,如Notredame等[4]开发的T-Coffee算法、Timo等[5]设计的Kalign算法、张琎等[6]设计的基于GC-GM多序列比对穷举遗传算法,是通过穷举某个特定范围内的所有序列的长度取值,来确定最终最佳比对长度的一种多序列比对算法。
这些算法已应用于各种多序列比对软件,并在应用中不断得到优化。
1.2 功能基因组学在后基因时代的今天,基因组学的研究已从结构基因组学(Structural genomics)转向功能基因组学(Functional genomics)[1] 。
功能基因组的任务是进行基因组功能注释(Genome annotation),了解基因功能、认识基因与疾病的关系、掌握基因的产物及其在生命活动中的作用。
基因的时空差异表达是功能基因组学研究的理论基础。
经典的减法杂交、差式筛选、cDNA替代差异分析以及mRNA差异显示等技术已被广泛应用于鉴定和克隆差异表达的基因。
近年来应用较热的主要是基因表达系列分析(Serial analysis of gene expression,SAGE)、cDNA微阵列(cDNA microarray)和DNA芯片(DNA chip)等差异表达分析技术。
如由Liang和Pardee等发明的差异显示反转录PCR(Differential display-reverse transcriptase PCR,DDRT-PCR)技术[8]。
1.3 蛋白质结构预测蛋白质结构预测是生物信息学的重要应用,分为二级结构预测和空间结构预测。
二级结构预测的目标就是预测某一个片段中心的残基是α螺旋,还是β折叠,或是其他结构,常用的方法有立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神经网络方法。
在空间结构预测方面,比较成功的理论方法是同源模型法。
运用同源模型法可以完成所有蛋白质10%到30%的空间结构预测工作[7]。
目前尚没有普遍可行的方案实现蛋白质结构的准确预测,大多数方案为启发式的。
1.4 基于结构的药物设计基于生物大分子结构的药物设计是生物信息学研究的热点。
利用现有的海量生物数据进行潜在药物靶点定位是生物信息学药物设计的主要策略。
目前研究比较热的是计算机辅助药物设计(Computer aided drug design)。
计算机辅助药物设计就是通过模拟和计算受体与配体的这种相互作用,进行先导化合物的优化设计,大致包括活性位点分析法、数据库搜索、全新药物设计。
目前活性位点分析软件主要有DRID、GREEN、HSITE等[7]。
通过搜索数据库来获得药物靶点是其中一个手段,主要分为基于配体的方法和基于受体的分析方法;另外,全新药物设计的方法越来越受到人们的重视,现已开发出一批实用性较强的软件,主要有LUDI[9]、Leapfrog [10]、GROW、SPROU等,其中LUDI最为常用。
2 生物信息学的研究方法生物信息学是计算机科学、数学和生物学界面的一门多学科的交叉学科。
生物信息学数据库主要分为两大类,包括基本数据库和二级数据库。
基本数据库是对原始生物实验数据进行简单的整理和归类。
主要包括核酸数据库,如GenBank、EMBL、DDBJ等;基因组数据库,如GDB、GenCards等;蛋白质序列数据库,如SWISS-PROT、PRI、TrEMBL 等;蛋白质结构数据库PDB。
二级库是在一级库的基础上,结合工作的需要将部分数据从一级库中取出,经过重新组合(包括一定的修正或调整)而成的数据库。
由于其专一性强,数据量相对较少,但质量高,数据库结构设计精制。
目前生物信息学的研究对象主要是核酸序列和蛋白质序列,其主要任务是分析研究序列数据库中所含的各种信息,特别是DNA序列中的遗传及调控信息以及研究蛋白质序列与结构及功能的关系16。
GenBank(/genbank)是由位于Bethesda 的美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)成立和维护的DNA和RNA序列数据库,是国际核酸序列数据库合作项目的一部分,它与欧洲分子生物学实验室(Europena Molecular Biology Laboratory,EMBL)(/)和日本核酸序列数据库(DNA DataBank of Japan,DDBJ)(http://www.ddbj.nig.ac.jp/)一起构成当今世界上最权威最广泛的核酸序列数据库。
收录的序列包括基因组DNA序列、互补脱氧核糖核酸(complementary deoxyribonucleic acid,cDNA)序列、表达序列标签(expressed sequence tags EST)序列、序列标签位点(sequence tagged site,STS)、载体序列以及专利序列等,每条记录都有编码(coding sequence,CDS)特征的注释,还包括氨基酸的翻译。
它是一个有来自于16500多种生物且以每月2000多种新物种的速度增长的巨大核酸数据库。
具体访问GenBank的方式可通过Entrez搜索引擎、基本局部比对搜索工具(Basic Local Alignment Search Tool ,BLAST)进行序列同源性搜索、dbEST搜索以及dbSTS 搜索。
每种搜索方式又可以通过关键词、作者、GenBank接受号、种类分类等进行查询。
SWISS-PROT(/sprot/sprot-top.html)蛋白序列数据库是由日内瓦大学医学生物化学系与EMBL于1987年共同开发维护,现由EMBL的分支机构欧洲生物信息学研究所(European Bioinformatics Institute,EBI)进行维护,旨在向基因组和蛋白质组以及相关的分子生物学研究人员提供有关蛋白质序列的最新信息。
SWISS-PROT 涉及已知蛋白质的功能、序列、结构域的结构、翻译后修饰及其位点、突变体等。
具体访问SWISS-PRO时,可通过关键词、SWISS-PROT接受号、作者等方式进行查询。
为了保持高质量的注解,使序列尽快地有效变得至关重要。
因此,TrEMBL于1996年成立,它是对SWISS-PROT的计算机注解的补充,这样使SWISS-PROT 蛋白质序列数据库变得更加充实和重要。
PDB()创建于1971年。
其是美国自然科学基金会、能源部和国立卫生研究院共同投资,由美国布鲁克海文国家实验室(Brookhaven National Laboratory)建立的,主要由X射线晶体衍射和核磁共振测得的生物大分子的三维结构所组成的全世界最完整的蛋白质结构数据库。
它位于美国结构生物信息学联合研究所(Research Collaboratory for Structural Bioinformatics,RCSB),受美国国家科学基金等7种政府基金的资助。
PDB主要可应用于蛋白质结构预测和结构同源性比较,是进行生物分子结构研究的基本数据依据。
3 生物信息学展望近两年来的生物信息学研究论文统计结果分析表明,在后基因组时代,生物信息学的主要研究内容已经从对DNA和蛋白质序列进行比较,编码区分析,分子进化转移到大规模的数据整合,可视化,转移到比较基因组学,代谢网络分析,基因表达谱网络分析,蛋白质组技术数据分析处理,蛋白质结构与功能分析以及药物靶点筛选等,分别与功能基因组,蛋白质组,结构基因组等研究领域互相配合,紧密相关,成为目前极其热门的系统生物学研究的重要的基石[17]。
生物信息学的前景是诱人的,是我们了解生命科学的一个简单快速的手段作为一个数学、计算机和生物的交叉学科,数学、计算机学科的发展对于生物信息学的发展是至关重要的。
在生物信息学发展的过程中,面对越来越庞大的数据的积累,如何去挖掘这些数据的信息,以及数据库的维持和建立和相关软件的研发的利用,都将左右着生物信息学的发展。
像目前对于蛋白质或RNA 的高级结构还很难预测,而且对于不同的软件得出的结论也缺乏一致性,生物信息学所研究的结果也许并不能反应生物的真实信息,如何提高它的可信度和准确性也是研究人员所要思考的。
虽然软件的使用是快捷的,但是它并不是万能的,在生物信息学探索的道路中还有很多盲区,探索才刚刚开始[18]。
参考文献[1]Roos D S.Bioinformatics-Trying to Swim in a Sea of Data[J].Sciences,2001,291(5507):1260-1261.[2]Demkin V V.Bioinformatic analysis of nucleotide sequences records retrieved from GenBank[J].Mol Gene Mikrobiol Virusol,2009,2:36-39.[3]Notredame C,Higgins D G.SAGA:sequence alignment by genetic algorithm[J].Nucleic Acids Res,1996,24(8):1515-1524.[4]Notredame C,Higgins D G,Heringa J.T-Coffee:A novel method for fast and accurate multiple sequence alignment[J]. J Mol Bio,2000,302(1):205-217.[5]Lassmann T,Sonnhammer E.Kalign-an accurate and fast multiple sequence alignment algorithm[J].BMC Bioinformatics,2005,6(1):298.[6]张琎,张远.基于GC-GM的多序列比对穷举遗传算法[J]. 计算机应用,2010,30(1):146-149.[7]冯思玲.生物信息学技术研究[J].信息技术,2009,5:20- 22.[8]高锐,臧春龙,张传东.功能基因组学研究进展[J].畜牧兽医科技信息,2008,3:12-20.[9]Bohm H J.LUDI:rule-based automatic design of new substituents for enzyme inhibitor leads[J].J Comput Aided Mol Des,1992,6(6):593-606.[10]Xiao M J,Huang L S,Dong Q F,et al.Leapfrog:Optimal Opportunistic Routing in Probabilistically Contacted Delay Tolerant Networks[J].J Comput Sci Technol,2009,24(5): 975-986.[11]赵振宇, 卢., 陈菊祥,侯立军,胡国汉,骆纯, 基于生物信息学技术筛选影响胶质母细胞瘤化疗敏感性相关基因的研究. 现代生物医学进展2011,11(19), 3601-3604.[12]邹清华, 张., 蛋白质组学的相关技术及应用. 生物技术通讯2003,14(3), 210-213.[13]宏, 肖. 杰. 吴. 王. L. J. 徐., 花生profilin蛋白的生物信息学分析. 免疫学杂志2011,27 (2), 158-161.[14]南岩东, 杨., 田应选, 霍淑芬, 杜洁, 金发光, 基于鸟枪法蛋白质组学和生物信息学技术对肺鳞癌表达蛋白质谱的分析. 西安交通大学学报(医学版) 2011,32 (1), 10-17.[15]何庆丰, 日本血吸虫尾蚴弹性蛋白酶结构的生物信息学分析. 中国病原生物学杂志2011,6 (2), 136-140.[16]刁雪涛, 张., 宋洁,金梅, 生物信息学研究进展. 安徽农学通报2008, 14 (22), 160-1162.[17]郑国清, 张., 段韶芬,徐丽敏, 生物信息学的形成与发展. 河南农业科学2002,2002 (11), 4-7.[18]何懿菡, 孙. 坤., 生物信息学研究进展. 青海师范大学学报(自然科学版) 2011,2011 (3), 69-72.。