微生物基因组测序分析策略
BGI Trans-omics
基因组学
第一部分
基因组学研究 真菌
基因组调查 精细图 重测序 ITS测序
细菌
基因组调查 精细图 完成图 重测序
16s rDNA测序
Conten
基因组从头测序
细菌基因组注释分析
编码基因预测方法 基因组注释方法
基因组重测序
宏基因组学分析
基因组从头测序
基因组从头测序
细菌denovo
基因组调查 研究平台 Hiseq2000 精细图 Hiseq2000 完成图 Hiseq2000+(454) +(OM)+Sanger
测序深度 测序策略 建库策略
承诺指标
100X 91PE 500bp
无
150X 91PE 500bp+2K/5kb
Scaffold No. ≦ 60
K-mer分析
基因组从头测序
真菌denovo
Clean Reads rRNA & tRNA
组装
非编码RNA预测
组装结果评价
组装结果
重复序列分析
重复序列
分泌蛋白预测
基因预测
参考基因 共线性分析
基因组调查:只进行 粗略组装,一次调试, 不承诺组装指标。
精细图:进行精细组 装,多次调试,承诺 组装指标。
组装结果
Non-coding RNA注释 重复序列注释
精细图:进行精细 组装,多次调试, 承诺指标: scaffold < 45
完成图:进行精细 组装,多次调试、 补洞,承诺指标: 1 contig, 0 gap
COG注释
基因组环形图分析
基因预测
共线性分析 ORFs 基因家族分析 Ref_gene KEGG/COG/SwissProt /TrEMBL/NR/GO 基因功能注释
/gorf/gorf.html 通用
/ /software/glimmer/ 原核 原核
Generation FGeneSB
/generation/
基因组从头测序
FAQ
Q1:什么是Read、Contig、Scaffold?
Read:测序读到的碱基序列片段; Contig:由reads通过对 overlap区域拼接组装成的没有 gap的序列段; Scaffold:通过pair ends信息确定出的contig排列,中间有 gap。
Q2:什么是N50,N70,N90?
把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组 装序列总长度50%时,最后一个contig 或scaffold的大小即为N50的大小,N50 对评价组装序列的连续性、完整性有重要意义; N70和N90的计算方法与N50类 似,只是百分数变为70%或90%。
Q3:如何了解研究物种是否有参考基因组序列?
原核
/berry.phtml?top 细菌(基因结构) ic=fgenesb&group=programs&subgroup=gfindb
De novo预测
优势 预测时间短,一个5M的细菌基因组序列进行基因预测,只需要几分 钟就完成; 资源消耗非常少,信息量大; 对于细菌基因组,准确性已达到98%以上。 局限性 存在假阳性,预测到的基因需要经过实验验证; 软件参数选择难以控制,需要对所研究菌株基因组有深入的认识。
查询网址:/genome/?term=
Conten
基因组从头测序
细菌基因组注释分析
编码基因预测方法 基因组注释方法
基因组重测序
宏基因组学分析
细菌基因组注释意义
自然现象
个体功能 (表型)
个体特征
个体特有 物质
特有基因
基因:有遗传效应的DNA片段,是控制生物性状的基本遗传单 位。特有基因的存在导致个体有特殊的功能。
De novo预测
1、确定密码子,起始、终止密码子
2、识别开放阅读框
开放阅读框(open reading frame,ORF):是一段起始密码子和终 止密码子之间的碱基序列,ORF是潜在的蛋白质编码区。
原核生物ORF分析识别工具
工具
网站
通用性
ORF Finder
GeneMark Glimmer
基因预测常用工具介绍
GeneMarks
GeneMarkS也是使用隐马尔 科夫模型及步进算法来工作。 GeneMarkS结合了 GeneMark.hmm (prokaryotic)和GeneMark (prokaryotic)两个模型,通 过自身训练的过程来决定这两 个模型的参数。
同源预测
同源预测是基于相似性的预测方法(需要高度同源的参考基因序列) 基于的假设: 具有功能相同或相似的基因在氨基酸水平上相似度很高。 同一物种的基因组的基因在氨基酸水平上应该一样。包括长度、编 码的蛋白质。
ORFs 基因家族分析 基因功能预测
KEGG/COG/SwissProt/TrEMBL/NR/GO
基因组从头测序
真菌denovo
基因组调查 研究平台 Hiseq2000 精细图 Hiseq2000
测序深度 测序策略 建库策略
承诺指标
50X 91PE 500bp
无
100X 91PE 170bp+500bp+5 kb
protein1
protein2
同源预测过程
——基于比对,寻找相似的序列的过程 1. 选取参考的基因 。 2. 基因组序列与参考基因蛋白序列进行蛋白水平的比对。 基因组序列为核酸序列,比对时需要选取适当的参数设置为 核酸序列与蛋白序列的比对。 3. 选取完整的基因,可能存在单氨基酸的突变。 起始密码子、终止密码子都存在。
同源预测
• 以检索序列与已知基因的序列最大的匹配为基础。
De novo预测
De novo预测的主要依据是基因的结构模型。
原核生物基因结构: 原核生物基因组小,基因密度高,很少存在重复序列,一个基因是由 编码一个蛋白质或RNA的开放阅读框构成,中间没有间断。 起始密码子:ATG,GTG,TTG(ATT,ATC,ATA,GTG) 终止密码子:TAA,TAG,TGA
Strain
Genome length 5,371,077
5,697,240
GC content 50%
50%
Gene number 4972
5364
Escherichia coli O111:H- str. 11128
Escherichia coli O26:H11 str. 11368
Escherichia coli O103:H2 str. 12009 Salmonella enterica subsp. enterica serovar Paratyphi C strain RKS4594 Salmonella enterica subsp. enterica serovar Paratyphi B str. SPB7
>150X 91PE 170bp+500bp+2K /5kb
1 contig, 0 gap
信息分析 项目周期
简单评估 40工作日
精细组装+高级 45工作日
完整组装+高级 75工作日
基因组从头测序
细菌denovo
细菌完成图(1 contig,0 gap)
多种策略综合运用: 1、Hiseq 1小2大片段数据组装 2、Optical mapping(可选) 3、454(可选) 4、补洞及验证(sanger平台) …
细菌基因组注释流程
基因组注释 基因组序列 基因预测
• 重复序列预测 • ncRNA预测 • 基因功能注释 • 基因岛预测
Conten
基因组从头测序
细菌基因组注释分析
编码基因预测方法 基因组注释方法
基因组重测序
宏基因组学分析
基因预测的方法
从头预测(De novo 预测)
• 以给定的序列本身来进行基因预测 • 基因信号(Gene Signals):包括起始、终止密码子, 内含子剪接信号,转录因子结合位点,核糖体结合位点 以及Poly-A等。 • 基因内容(Gene Content):对编码区的统计学上的描 述。可以由概率模型:马尔科夫模型或隐马尔科夫模型 检测到这一特征,用以区别编码与非编码区。
产品概述
从头测序即de novo 测序,不需要任何参考序列资料即可对某个物种进行测 序,用生物信息学分析方法进行拼接、组装,从而获得该物种的基因组序 列图谱。
全基因组序列图谱完成后,可以构建该物种的基因组数据库,为该物种的 后基因组学研究搭建一个高效的平台,为后续的基因挖掘、功能验证提供 DNA 序列信息。
protein1
protein2
同源预测
优势 具有针对性。想了解所测菌中是否存在某基因,就直接进行基因的 比对,节省资源,结果呈现直观。 准确性高,假阳性低。 局限性 参考序列要非常同源,受已测的基因个数、类型限制。 特有基因和相似度不高的基因不能被预测出来。
同源预测准确性高但个数少
Scaffold N50 ≥ 300kb
信息分析 项目周期
简单评估 40工作日
精细组装+高级 70工作日
基因组从头测序
细菌denovo
基因组调查:只进 行粗略组装,一次 调试,不承诺组装 指标。
组装结果评价 测序数据 前噬菌体预测 De novo组装 基因组岛预测
CRISPR预测 rRNA & tRNA Repeat
使用两个大肠杆菌的序列,以“Escherichia coli O111:H- str. 11128” 的蛋白序列作为参考(ref),来预测“Escherichia coli O26:H11 str. 11368”基因组序列的基因(query)。 结果:对query预测到了4402个基因。