Whole-genome Annotation of an A.baumannii strain A.baumannii ACICU摘要随着新一代测序技术的发展,微生物全基因组测序的成本大大减少,DNA序列的生成速度已远远超过其基因的注释速度。
功能基因组学的研究已经成为当今研究的主流。
然而如此多的数据对现有的基因注释工具提出了巨大的挑战。
本研究通过对A.baumanii ACICU染色体序列使用GeneMarks进行基因预测,预测到了3718个基因,然后使用RAST进行基因注释,共注释到了3683个功能基因,将得到的结果与原文献中所注释到的基因进行对比。
最后得到结论,基因的预测与注释都需要综合不同软件的结果进行分析,才能得到较为准确的结果。
本研究为原核生物全基因组的注释提方法供了参考。
关键字:基因注释全基因组鲍曼不动杆菌GeneMarks RAST目录1.引言(Introduction) (2)1.1.背景介绍 (2)1.2.全基因组注释软件 (3)1.3. A.baumannii ACICU相关 (4)2.材料与方法(Methods and Materials) (5)2.1.使用GeneMarks进行ORF预测 (5)2.2.使用RAST进行功能基因注释 (6)3.结果与讨论(Results and Discussion) (8)3.1.使用GeneMarks预测ORF的结果以及分析 (8)3.2.使用RAST进行功能基因注释结果以及分析 (9)3.3.综合分析 (10)参考文献 (10)1.引言(Introduction)1.1.背景介绍一个完整的基因组是指组成一个生物体全部DNA的集合。
想要完全了解一个生命体,首先需要知道它的全基因组序列,因为生命体本身的遗传信息是不会轻易改变的。
基因组研究包括两方面内容:(1)以全基因组测序为目标的结构基因组学(2)以基因功能鉴定为目标的功能基因组学,也叫后基因组(postgenome)研究。
其中结构基因组学的重点就是利用高通量测序仪进行全基因组测序。
随着测序的完成,功能基因组学研究成为研究的主流。
功能基因组学的研究内容很多,主要包括:基因组表达调控的研究、基因信息的识别和鉴定、基因功能信息的提取和鉴定、基因多样性分析、比较基因组学等。
随着新一代测序技术的发展,微生物全基因组测序的成本大大减少,DNA序列的生成速度已远远超过其基因的注释速度。
现阶段超过300个细菌基因组序列已可以在公开数据库中查询,同时有更多的微生物基因组序列测序工作即将完成并在近期发布。
如何利用这些原始序列信息来更好的了解微生物中诸如基因的识别和注释、蛋白质的结构和功能等生物学知识,这是我们现阶段要做的重要工作。
传统上,人们用实验方法验证基因组中的蛋白质编码基因,但这种方法费时费力,且带有较大的盲目性。
因此,基因组注释不可避免要依靠自动化注释软件,采用自动化注释对生物序列特别是大规模的基因组序列进行分析和注释,从而对传统生物学实验产生有益的方向性指引是当前研究的热点。
然而,自动化注释必然会引进和传播一些错误的注释信息,其结果往往需要人工修正,数据库中收录的已测序和注释的基因序列数量巨大,手工修正所有的注释序列也是不可行的[1]。
基因组注释的准确性已变得越来越为重要,新的注释方法不断研发,如根据序列组成特征或核苷酸出现频率模式等多种参数对蛋白质编码基因起始位点、假蛋白基因和RBS位点的的识别方法。
这些研究加上不断完善的数据库信息和新的实验验证知识,在不久的将来无疑会对基因组注释的准确度起到更好的作用。
1.2.全基因组注释软件目前,针对基因组学研究的各个方向都有许多现成的软件。
这些软件都是研究者或商业公司针对某些分析方法开发的,为后来研究者提供了巨大的便捷。
基因组注释是在得到全基因组序列后首先要做的。
它是利用生物信息学方法,对基因组所有基因的生物学功能进行功能注释,包括基因预测和基因功能注释两个方面。
目前已经有许多的基因预测工具或者在线注释网站。
基因预测的方法主要有3 种:(1)分析mRNA和EST数据直接得到结果;(2)通过相似性比对从已知基因和蛋白质序列得到间接证据;(3)基于各种统计模型和算法从头预测,比如隐马可夫模型。
其中通过相似性比对得到预测基因的方法最常见。
例如,现在流行的做法是先通过Glimmer、GeneMarks等软件预测出基因组的ORF。
然后通过Blast方法将ORF同其他物种的基因进行比对。
有同源基因的ORF被注释为同样功能的基因,没有同源性的ORF被舍去或注释为假说蛋白(hypothetical protein)。
由于注释需要大量的数据库,为了使注释变得简单,一些研究机构将不同功能的注释软件整合在一起,提供在线的注释服务。
如RAST[2]、Xbase 等,NCBI的PGAAP能提供人工的注释服务。
这些网站只需要用户将序列和序列的所属物种分类信息提交即可。
注释好的结果为gbk 格式文件(包含序列和注释信息)[3]。
GeneMarks[4]软件的原理都是使用统计学模型的从头预测(ab initio)方法,不依赖任何先验知识和经验参数,通过描述DNA序列中核苷酸的离散模型,利用编码区和非编码区的核苷酸分布概率不同来进行基因预测。
GeneMarks是不需要人为干预和相关DNA或rRNA基因的资料即可对新的细菌基因组进行预测,测试表明GeneMarks对GeneBank数据库中已注释的枯草芽孢杆菌的预测准确度达到82.9%,而对已通过实验方法证实注释功能的大肠杆菌的预测高达93.8%,其对新测序基因组的预测与Glimmer存在同样问题,即相当一部分基因在数据库并不能发现同源,只能作为假蛋白基因存在。
如何在没有明确实验证据的前提下鉴定此类基因预测的准确性,切实可行的方法就是综合利用多个预测软件对预测结果进行比较,分析其中的异同点[1]。
1.3.A.baumannii ACICU相关本研究所采用的菌株A.baumannii ACICU是鲍曼不动杆菌比较有代表性的菌株,关于这株菌的具体信息可查看Iacono M et.al[5]。
近年来由于鲍曼不动杆菌的耐药性的不断增强,关于鲍曼不动杆菌耐药机制进行了大量研究,已经有35株鲍曼不动杆菌完成了全基因组基因测序与注释。
上表格显示了A.baumannii ACICU 菌株的全基因组的注释状况其由整个染色体以及两个质粒组成。
其中染色体大小为3904116bp,编码区占整个基因组的84.78%,含有预测基因数(ORF)为3758个,其中编码蛋白质的基因数为3670个[5]。
上图为NCBI上所显示的A.baumannii ACICU的相关状况,其中编码蛋白质基因数为3613,与原文献中所载有较大差别,可能是随着时间的推移,基因注释方法有所改进,有所变化所致。
本研究主要以A.baumannii ACICU染色体序列为例对基因预测与注释的方法进行分析,以找到合适的基因预测与注释的方法。
2.材料与方法(Methods and Materials)下面我们利用从NCBI上下载的A.baumannii ACICU全基因组染色体序列(不包含质粒序列)(.fasta格式)为例,分别使用GeneMarks (/GeneMark/genemarks.cgi)进行ORF(开放阅读框)基因预测,RAST(/)进行功能基因(CDS)注释,对比原结果进行分析。
2.1.使用GeneMarks进行ORF预测(1)第一步是上传A.baumanii ACICU染色体序列,并设置合适的参数,填加自己的邮箱。
全部设置好之后,点击[Start GeneMarks]开始注释。
如下图所示:(2)第一步上传结束序列之后,会出现如下界面,提示序列已成功提交,注释好的文件会发到所填邮箱。
2.2.使用RAST进行功能基因注释(1)上传A.baumanii ACICU(.fasta格式)序列,上传结束后点击[Use this data and go to step 2]进行下一步。
如下图所示:(2)第二步填加必须的的参数,Domain选择[Bacteria],Genetic Code选择[11],然后点击[Use this data and go to step 3]进行下一步操作。
如下图所示:(3)如下图所示,选择好合适的参数后点击[Finish the upload],即可等待结果,注释结束后,其会发邮件告知3.结果与讨论(Results and Discussion)3.1.使用GeneMarks预测ORF的结果以及分析使用GeneMarks进行预测后,生成了gms.out gms.out.faa gms.out.fnn gms.out.ps四个文件:其中gms.out文件如下显示(其中一部分,使用linux系统cat或者head命令查看):Gene Strand LeftEnd RightEnd Gene Class# Length1 -76 468 393 12 -506 2974 2469 13 -3027 4109 1083 14 -4124 5272 1149 15 -5370 6767 1398 16 + 7438 7572 135 17 + 7602 7994 393 18 + 8005 8325 321 19 + 8331 10091 1761 110 + 10182 11537 1356 1…………3711 + 3894879 3896006 1128 13712 + 3896134 3896979 846 13713 -3897035 3897370 336 13714 -3897495 3898499 1005 13715 -3898842 3899849 1008 13716 -3900105 3901109 1005 13717 + 3901366 3903297 1932 13718 + 3903549 3904106 558 1其中gms.out.faa氨基酸序列文件显示如下(其中之一):>gene_3718|GeneMark.hmm|185_aa|+|3903549|3904106>gi|184156320|ref|NC_010611.1| Acinetobacter baumannii ACICU, complete genome MNFIDFITNFEQFLPILIQEYGAWVY AILFLIIFSETAFVFMFFLPGDSLLLTVGALCSV VELMHLGYMITLLTVAA TLGYIVNYSIGRHFGNRIFEAKSRFIKKEYLNKTNRYFLQHGG KTILLARFIPFARSFAPLAAGSSNMSYGKFLIYNV AGAILWICILLTAGYLFGHALIQVT DFVEN其中gms.out.fnn核苷酸序列如下所示,起始密码子为ATG,终止密码子为TAA TGA和TAG(其中之一):>gene_3718|GeneMark.hmm|558_nt|+|3903549|3904106>gi|184156320|ref|NC_010611.1| Acinetobacter baumannii ACICU, complete genome ATGAATTTTATTGATTTTATTACTAATTTTGAACAA TTTTTACCTATTTTGATTCAGGAG TA TGGTGCATGGGTTTATGCCATACTCTTTTTGATTATTTTTTCTGAAACTGCTTTTGTG TTTA TGTTCTTTTTACCTGGAGATAGCTTACTTTTAACTGTAGGTGCACTGTGCTCGGTGGTTGAACTGATGCA TCTTGGTTATATGATTACTCTGCTCACCGTTGCAGCAACA TTAGGC TA TA TCGTCAATTA TTCTA TTGGCCGCCATTTTGGAAACCGTATTTTTGAAGCAAAATCA CGTTTTATTAAAAAAGAATATTTGAA TAAAACGAACCGCTATTTCTTGCAACATGGCGG TAAAACTATTCTTTTAGCACGTTTTATTCCTTTCGCACGTTCTTTTGCACCCCTCGCTGC CGGCTCAAGCAA TA TGAGCTATGGAAAATTTTTGATTTACAATGTGGCAGGAGCTA TTT TGTGGATCTGCATCCTTTTAACGGCTGGCTACCTA TTTGGCCA TGCACTCA TTCAAGTTA CAGATTTTGTTGAAAATTAA由此可知A.baumannii ACICU全基因组经GeneMarks预测到了3718个基因。