当前位置:文档之家› 高通量测序生物信息学分析(内部极品资料,初学者必看)

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。

目前国际上通用的基因组De Novo测序方法有三种:1. 用Illumina Solexa GA IIx 测序仪直接测序;2. 用Roche GS FLX Titanium直接完成全基因组测序;3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx进行深度测序,完成基因组拼接。

采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。

实验流程:公司服务内容1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头,去污染);序列组装达到精细图标准2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展示平台搭建1.基因组De Novo测序对DNA样品有什么要求?(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。

基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。

(2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。

基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。

(3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。

基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。

(4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。

2. De Novo有几种测序方式目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。

在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。

下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。

Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。

单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。

Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。

图1 Single-read文库构建方法图2 Paired-end文库构建方法Mate-pair文库制备旨在生成一些短的DNA片段,这些片段包含基因组中较大跨度(2-10 kb)片段两端的序列,更具体地说:首先将基因组DNA随机打断到特定大小(2-10 kb范围可选);然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600 bp 的片段并通过带有链亲和霉素的磁珠把那些带有生物素标记的片段捕获。

这些捕获的片段再经末端修饰和加上特定接头后建成mate-pair文库,然后上机测序(图3)。

图3 Mate pair文库构建方法3.基因组De Novo测序的策略?由于不同物种的基因组大小和复杂程度可能千差万别, 因此全基因组测序可以根据经费预算和基因组预分析结果, 灵活选择不同的测序平台或平台组合。

(1) 在基因组较小的物种测序计划中可以选择Roche 454 或Solexa测序平台。

(2) 对于复杂的植物大基因组可以选择两种或以上的测序平台测序,通常利用 Roche 454 的鸟枪法测序完成基因组的初步组装, 产生 454 contigs, 然后利用Solexa或 ABI SOLiD 的双末端测序数据确定 454 contigs 之间的顺序和方向, 形成 scaffolds。

最后利用Solexa或ABI SOLiD数据填充部分 contigs 之间的空隙, 是一个比较合理和经济的测序策略。

(3) 另外,由于Solexa的读长已经升级到150 bp,也可以直接利用Solexa的paired-end 和mate-pair两种测序方式结合测序,完成较大物种的基因组拼接。

4.制定测序策略前,如何估算新物种的重复序列结构?一般来说,基因组De Novo采用多种长度的插入片段文库进行拼接,主要是为了跨越不同长度的重复序列,因此,了解基因组中的重复系列结构有助于实验方案的设计。

由于不同物种基因组的重复序列结构分布不同,如人基因组中的重复片段较多,也较长,而果蝇基因组中的重复片段较少,也较短,因此二者采用的拼接策略也略有不用。

新物种的重复序列结构的估计一般是基于近缘物种基因中的重复序列结构,认为系统发育相近的物种,它们的重复序列结构相近。

用一定长度的k-mer为框,连续截取基因组,从而得到一系列的unique cluster和repeat cluster,画出这些cluster的分布图,估算这种长度重复序列的分布,如下图所示,人类基因组中长度在10K以上的重复序列占了很多,而果蝇基因组中则主要集中在100bp~10K范围之内,所以用短序列De Novo组装人类基因组的时候,需要增加插入片段长度为10K的mate-pair数据。

5.如何选择不同的插入片段组合达到最佳?文库构建过程中插入片段的长度选择应考虑以下几个因素:(1) 一般来说短的插入片段用来拼接contigs,而长的插入片段用来搭建骨架(scaffold);(2) 选择不同的插入片段组合的策略主要是为了跨越不同长度的重复序列区。

不同的生物重复片段分布不一样,举例说明,人基因组中长的重复片段较多、果蝇基因组中短的重复片段较多。

要跨越片段长度较长重复序列,必须选取更大的插入片段双端测序文库,但是长的插入片段文库的偏差较大,不能准确的定位较短重复序列的问题,因此,一般长插入片段和短的插入片段的文库都是需要。

但是,插入片段越长,割胶回收时片段的分布越广。

2k的插入片段至少有1%的偏差,即200bp的偏差。

如下图所示,短插入片段文库基本符合预期,但是长插入片段文库中发现有5%的插入片段在0~500bp的读段,将有可能增加De Novo拼接的错误率。

因此,长插入片段文库的测序深度不建议太大。

(3) 由于没有基因组信息,需要调查近缘物种的重复序列分布,能够帮助实验设计。

详情见问题46.基因组De Novo需要多大的覆盖率?基因组的覆盖率是指测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。

测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。

基因组De Novo测序覆盖率的选择需要考虑测序所采用的策略。

由于物种基因组的大小相差比较大,如细菌、真菌等微生物,其基因组一般比较小,可以单独采用Roche 454(20-30x)或Solexa采用高覆盖率(60×左右)的策略进行测序。

而对于一些基因组比较大(100M以上)的物种(如植物),会采用一些技术平台组合的方法进行测序。

考虑到平台间的成本差异及各平台的优势,为更经济有效的完成基因组De Novo测序,各种平台的覆盖率选择也不同。

如由于Roche 454测序成本较Solexa和ABI SOLID 4要高,一般在采用Roche 454搭建骨架时覆盖率选择比较低(10×),然后再用Solexa和ABI SOLID 4进行高覆盖率的测序组装scaffolds和填补gap。

另外,覆盖率的选择还要考虑所选择的测序方式,不同测序方式插入片段的长度有所差异,一般来讲长插入片段文库测序深度不能太大,会影响测序准确度(详见问题5)。

图1 测序量与测序覆盖度的关系图2 覆盖度与contig N50值的关系7哪些因素会影响测序结果的质量?(1)个体的杂合度:个体的杂合度越高,拼接难度越大,甚至可能导致序列无法拼接。

(2)物种基因组的多态性:由于一些物种的个体太小,单个个体提取的基因组DNA的量可能难以满足测序的要求(如一些寄生虫),如此便需要混合多个个体进行基因组DNA抽提以用于测序。

对于这类情况,需要评估该物种基因组的多态性,如果基因组的多态性太高,会影响后续基因组的拼接。

(3)DNA样本的质量:对于细菌与真菌而言,样品来源一定要单一菌落无污染,动植物样本也要尽量纯合,且无污染,否则会严重影响测序结果的质量。

另外制备基因组不能小于23Kb,如果片段过小,在基因组片段化(Fragment)的过程中容易造成小片段丢失,导致构建的测序文库不能完整的覆盖全基因组,对测序结果产生重大的影响。

(4)另外如果基因组的某些区域的GC含量过高(GC%≥65%)会使测序过程中出现偏向性,导致某些区域的覆盖率太低,从而影响后续的拼接和注释。

(5)对于重复序列过多的物种,大量重复序列的存在会产生许多错误的重叠,造成拼接产生的contigs过短,从而导致结果的严重偏差。

8.全基因组De Novo测序的拼接标准怎样?全基因组De Novo测序拼接国际标准:基因框架图基因组精细图基因组覆盖率>90% 基因组覆盖率>95%基因区覆盖率>95% 基因区覆盖率>98%Contig N50 >5kb Contig N50 >20kbScaffold N50 >20kb Scaffold N50 >300kb单碱基错误率<0.01% 单碱基错误率<0.01%N50 即覆盖50% 所有核苷酸的最大序列重叠群长度,把contig或scaffold从大到小排序,并对其长度进行累加,当累加长度达到全部contig或scaffold长度一半时,最后一个contig或scaffold长度。

相关主题