当前位置：文档之家› 计算机在生物信息学中的应用_王帆

计算机在生物信息学中的应用_王帆

2012年第35期生物信息学是利用计算机为工具，用数学及信息科学的理论和方法研究生命现象，对生物信息进行收集、加工、存储、检索和分析的科学。

生物信息学的核心是基因组信息学，基因组学是研究生物基因组和如何利用基因的一门学问，该学科提供基因组信息以及相关数据系统，试图解决生物、医学和工业领域的重大问题。

对于基因组学研究所产生的大量数据必须借助于先进的计算机技术收集和分析处理这些生物学信息，因此计算机科学为生物信息学的研究和应用提供了非常好的支撑。

1.序列比对序列比对其意义是从核酸、氨基酸的层次来比较两个或两个以上符号序列的相似性或不相似性，进而推测其结构功能及进化上的联系。

研究序列相似性的目的是通过相似的序列得到相似的结构或功能，也可以通过序列的相似性判别序列之间的同源性，推测序列之间的进化关系。

序列比对是生物信息学的基础，非常重要。

序列比对中最基础的是双序列比对，双序列比较又分为全局序列比较和局部序列比较，这两种比较均可用动态程序设计方法有效解决。

在实际应用中，某些在生物学上有重要意义的相似性不是仅仅分析单条序列，只能通过将多个序列对比排列起来才能识别。

比如当面对许多不同生物但蛋白质功能相似时，我们可能想知道序列的哪些部分是相似的，哪些部分是不同的，进而分析蛋白质的结构和功能。

为获得这些信息，我们需要对这些序列进行多序列比对。

多重序列比对算法有动态规划算法、星形比对算法、树形比对算法、遗传算法、模拟退火算法、隐马尔可夫模型等，这些算法都可以通过计算机得以解决。

2.数据库搜索随着人类基因组计划的实施，实验数据急剧增加，数据的标准化和检验成为信息处理的第一步工作，并在此基础上建立数据库，存储和管理基因组信息。

这就需要借助计算机存储大量的生物学实验数据，通过对这些数据按一定功能分类整理，形成了数以百计的生物信息数据库，并要求有高效的程序对这些数据库进行查询，以此来满足生物学工作者的需要。

数据库包括一级数据库和二级数据库，一级数据库直接来源于实验获得的原始数据，只经过简单的归类整理和注释；二级数据库是对基本数据进行分析、提炼加工后提取的有用信息。

分子生物学的三大核心数据库是GenBank 核酸序列数据库，SWISS-PROT 蛋白质序列数据库和PDB 生物大分子结构数据库，这三大数据库为全世界分子生物学和医学研究人员了解生物分子信息的组织和结构，破译基因组信息提供了必要的支撑。

但是用传统的手工分析方法来处理数据显然已经无法跟上新时代的步伐，对于大量的实验结果必须利用计算机进行自动分析，以此来寻找数据之间存在的密切关系，并且用来解决实际中的问题。

3.基因组序列分析基因组学研究的首要目标是获得人的整套遗传密码，要得到人的全部遗传密码就要把人的基因组打碎，测完每个小的序列后再把它们重新拼接起来。

所以目前生物信息学的大量工作是针对基因组DNA 序列的，建立快速而又准确的DNA 序列分析方法对研究基因的结构和功能有非常重要的意义。

对于基因组序列，人们比较关心的是从序列中找到基因及其表达调控信息，比如对于未知基因，我们就可以通过把它与已知的基因序列进行比较，从而了解该基因相关的生理功能或者提供疾病发病机理的信息，从而为研发新药或对疾病的治疗提供一定的依据，使我们更全面地了解基因的结构，认识基因的功能。

因此，如何让计算机有效地管理和运行海量的数据也是一个重要问题。

4.蛋白质结构预测蛋白质是组成生物体的基本物质，几乎一切生命活动都要通过蛋白质的结构与功能体现出来，因此分析处理蛋白质数据也是相当重要的，蛋白质的生物功能由蛋白质的结构所决定，因此根据蛋白质序列预测蛋白质结构是很重要的问题，这就需要分析大量的数据，从中找出蛋白质序列和结构之间存在的关系与规律。

蛋白质结构预测分为二级结构预测和空间结构预测，在二级结构预测方面主要有以下几种不同的方法：①基于统计信息；②基于物理化学性质；③基于序列模式；④基于多层神经网络；⑤基于图论；⑥基于多元统计；⑦基于机器学习的专家规则；⑧最邻近算法。

目前大多数二级结构预测的算法都是由序列比对算法BLAST 、FASTA 、CLUSTALW 产生的经过比对的序列进行二级结构预测。

虽然二级结构的预测方法其准确率已经可以达到80%以上，但二级结构预测的准确性还有待提高。

在实际进行蛋白质二级结构预测时，往往会把结构实验结果、序列比对结果、蛋白质结构预测结果，还有各种预测方法结合起来，比较常用的是同时使用多个软件进行预测，把各个软件预测结果分析后得出比较接近实际的蛋白质二级结构。

将序列比对与二级结构预测相结合也是一种常见的综合分析方法。

蛋白质二级结构指蛋白质多肽链本身的折叠和盘绕的方式。

二级结构主要有α-螺旋、β-折叠、β-转角等几种形式，它们是构成蛋白质高级结构的基本要素，常见的二级结构有α-螺旋和β-折叠。

三级结构是在二级结构的基础上进一步盘绕，折叠形成的。

研究蛋白质空间结构的目标是为了了解蛋白质与三维结构的关系，预测蛋白质的二级结构预测只是预测蛋白质三维形状的第一步，蛋白质折叠问题是非常复杂的，这就导致了蛋白质的空间结构预测的复杂性。

蛋白质三维结构预测方法有：同源模型化方法、线索化方法和从头预测的方法但是无论用哪一种方法，结果都是预测，采用不同的算法，可能产生不同的结果，因此还需要研究新的理论计算方法来预测蛋白质的三维结构。

图4.1蛋白质结构（下转第100页）计算机在生物信息学中的应用王帆刘帅（长春工程学院计算机基础教学中心吉林长春130012）【摘要】生物信息学是一门新兴的、正在迅速发展的交叉学科，它不仅对认识生物体的起源与进化研究有重要意义，而且还可以为人类诊断疾病及物种的改良提供一定的理论依据。

生物研究过程中产生的海量数据又需要具有数据处理和分析能力的大容量、高性能的超级计算机的支持，因此计算机技术在生物信息学的研究中显得尤为重要，本文就简单介绍了计算机在生物信息学研究中的哪些方面起到了不可忽略的作用。

【关键词】生物信息学；计算机科学；基因组学作者简介：王帆(1980—)，男，长春人，毕业于长春理工大学，本科学历，信息与计算科学专业。

刘帅(1979—)，女，长春人，东北师范大学硕士研究生，主要研究方向为计算机软件与理论。

◇高教论述◇2012年第35期●●目、用于集体福利或个人消费，不视同销售，不用计算销项税额。

在不得抵扣进项税额的第①项中，用于非增值税应税项目、集体福利或者个人消费的购进货物或者应税劳务不得抵扣进项税额，正好对应了视同销售规定中的第⑷、⑸项。

再看视同销售行为规定中有“购进的货物”的第⑹、⑺、⑻项，作为投资，提供给其他单位或个体经营者、分配给股东或投资者、无偿赠送其他单位或者个人，视同销售，需确认销售额并计算销项税额。

而其购进的货物，在不得抵扣的进项税额中则没有规定，即允许抵扣进项税额。

可见，不得抵扣进项税的规定与视同销售行为的规定是相互呼应的，不视同销售的项目，不计算销项税额，其购进货物的进项税额就不得抵扣；而视同销售的项目需计算销项税额，其购进货物的进项税额则准予抵扣。

从而可以得出增值税进项税额抵扣的规律，简述为：“有销项税额，则可抵扣进项税额；无销项税额，则不可抵扣进项税额。

”这个规律是否成立呢我们不妨从不得抵扣进项税额规定中的其他各项来验证一下：第①项中的免征增值税项目，免税项目无须计算销项税额；第②、③非正常损失，无法用于销售，不可能有销项税额；第④项，纳税人自用消费品，不用于销售，没有销项税额；第⑤项，对应前四项发生的运输费，故也不存在销项税额。

这些情况的下一个环节均没有销项税额，故其上一个环节购进货物的进项税额也均不得抵扣，与上述规律相符合。

从2012年1月1日起，我国首先在上海选择交通运输业、部分现代服务业等生产性服务业开展营业税改征增值税的试点，并在年内分批扩大至北京、天津、江苏、浙江、安徽、福建、湖北、广东和厦门、深圳10地。

在2013年及以后将继续扩大试点地区，并选择部分行业在全国试点，直至最终全面实行增值税，取消营业税。

营业税改增值税是我国正在进行的重大税制改革，增值税在我国税制中的地位和作用将会更加突出。

增值税还有很多细节问题及其他具体问题，如增值税转型后购进固定资产的抵扣、特殊项目及特殊销售方式销售额的确定、纳税义务发生的时间、增值税专用发票管理、小规模纳税人应纳税额的计算、出口退税等，也是增值税中应掌握的重要内容。

学生在理解增值税征收范围的基础上，解决销项税额的计算和进项税额的抵扣两大核心问题后，学习其他内容将会变得非常简单。

善于把握重点内容，分析总结规律，帮助学生深刻理解和掌握所学内容，是教师在教学中主导作用的重要体现。

科●（上接第74页）目前，已知蛋白质序列数据库中的数据量远远超过结构数据库中的数据量，并且这种差距会随着DNA 序列分析技术和基因识别方法的进步越来越大，人们希望产生蛋白质结构的进度能够跟上产生蛋白质序列的速度，这就需要对蛋白质结构预测发展新的理论分析方法，目前还没有一个算法能够很好地预测出一个蛋白的三维结构形状，蛋白质的结构预测被认为是当代计算机科学要解决的最重要的问题之一，因此蛋白质结构预测的算法在分子生物学中显得尤为重要。

5.结束语现如今计算机的发展已渗透到各个领域，生物学中的大量实验数据的处理和理论分析也需要有相应的计算机程序来完成，因此随着现代科技的发展，生物技术与计算机信息技术的融合已成为大势所趋。

生物学研究过程中产生的海量数据需要强有力的数据处理分析工具，这样计算机科学技术就成为了生物科学家的必然选择，虽然人们已经利用计算机技术解决了很多生物学上的难题，但是如何利用计算机更好地处理生物学中的数据仍是一个长期而又复杂的课题。

科【参考文献】［1］孙啸,陆祖宏,谢建明.生物信息学基础[M].清华大学出版社,2005.［2］张阳德.生物信息学.科学出版社[M].2004.［3］Dan E.Krane &Michael L.Raymer,孙啸,陆祖宏,谢建明译.生物信息学概论[M].2004.［4］施晓秋,孔繁胜.计算机在生物信息学中的应用[J].2001.［5］Marchi E,钟南.基因组学在基因组计划中的作用[J].生命的化学,1999(1):9-10.（上接第62页）情况，对问题的各个方面、各个环节进行综合考虑，以赢得工作的主动权。

在此基础上，针对历史遗留问题的不同情况，制定方案，落实措施，对重点问题实行目标管理，由市、区领导干部进行包干负责，奖罚兑现。

对历史资料遗失、土地清理回收、出嫁女和外来户补偿安置等久迤未决的问题，要尽快出台政策予以明确。

在具休处理历史遗留问题时，要坚持依法依规、合情合理的原则，维护群众正当合法权益。

对部分群众提出的合理要求，要在政策上予以倾斜；对特别困难户，要给予特殊的照顾；对不合理的诉求，则坚决不予满足。

e商务文档

计算机在生物信息学中的应用_王帆

相关文档推荐：