下一代测序技术摘要:DNA测序技术对生物学的发展有着最根本的意义。
Sanger法测序经过了30年的应用和发展,而在过去三年中,以454, solexa, SOLiD为代表的高通量测序平台已经大幅度降低了测序成本,提高了测序速度,成为基因组测序市场的主流。
在此基础上,各种下一代测序技术正在快速研发,将使基因组测序和重测序的通量和成本更加平民化,为基因组学、遗传学、生物医学和健康科学等领域的发展创造更加广阔的前景。
本文将对所有新的测序技术的原理、优势和应用进行总结和展望。
1977年Maxim、Gilbert发明的化学降解法测序技术和Sanger发明的双脱氧末端终止法测序技术不仅为他们赢得了诺贝尔奖,也使得从DNA序列层面研究分子遗传学成为可能。
特别是后者,从最开始的凝胶电泳到越来越高通量的毛细管电泳,从开始的手工操作到越来越多自动测序仪的出现,各种改进的Sanger 测序技术统治了DNA测序领域三十年,至今仍在长片段测序,大片段文库测序方面有广泛的应用。
人类基因组计划(HGP)的完成就是靠Sanger测序法。
在耗费了庞大成本的人类基因组计划宣布完成之后,越来越多的物种基因组测序工作对测序成本和通量提出了更高的要求,新一代测序技术(也被称为第二代测序技术)开始登上历史舞台。
2005年454 life science公司率先推出了焦磷酸测序技术,使测序成本较Sanger法降低了100倍,速度快了(提高)100倍,人类基因组测序逐步进入了100,000美元时代。
如今,454 FLX测序仪(Roche Applied Science)、基于“边合成边测序”的Solexa测序仪(Illumina Inc.)和使用“边连接边测序”的SOLiD测序仪(Applied Biosystems)已经成为基因组测序市场的主流机型。
除此之外,2008年一年内又有HeliScope单分子测序仪(Helicos)和Polonator(Dover/Harvard)两种测序机型商品化。
在NHGRI(美国人类基因组研究中心)的支持和推动下,未来几年内测序成本将在目前基础上再下降100倍,最终使个人基因组测序成本降至1000美元,人类将革命性的进入个人基因组时代。
高通量和低成本的测序技术将进入到普通实验室,基因组测序的简单化将使分子生物学飞跃发展,个人基因组测序产业化也将对健康医学等领域产生革命性的影响。
本文将首先对目前已经商品化的新一代测序技术(454、Solexa、SOLiD、HeliScope)做一介绍和比较,再对正在研发中的各种下一代测序方法(第三代测序技术)的原理和应用做一详细的介绍和展望。
1. Roche 454测序技术2005年454生命科学公司在《自然》杂志发表论文,介绍了一种区别于传统Sanger法的全新高通量测序方法,将测序成本降低了100倍以上,开创了第二代测序技术的先河,454测序仪也成为最先商品化的第二代测序仪。
正是在此基础上,其它如Solexa、SOLiD等第二代测序仪才相继问世。
454测序技术的原理在于首先使用乳液PCR(emulsion PCR)技术(图一a)扩增已经连接上接头的基因组文库片段,扩增子结合在28 μm的磁珠表面,将乳液破坏后用变性剂处理磁珠,再将含有扩增子的磁珠富集到芯片表面,用测序引物进行测序。
在测序过程中,454使用了一种“焦磷酸测序技术”(Pyrosequencing),即在合成DNA 互补链的过程中,每加入一种单核苷酸(dNTP),如与模板链配对结合,就会释放出一个焦磷酸,与底物腺苷-5’-磷酸硫酸(APS)在A TP硫酸化酶作用下合成A TP,与荧光素(Luciferin)一起在荧光素酶(Luciferase)的作用下,会发出一个光信号,由芯片背后连接的电荷耦合装置(CCD,Charge Coupled Device)捕捉。
454测序技术合成DNA链使用的是普通单核苷酸,没有任何标记,合成中也没有切割基团等生化反应,因此读长可以达到300-400bp。
但没有阻断(block)和去阻断(de-block)过程也意味着对连续重复单核苷酸的阅读只能根据信号强度来判断,容易对其中插入和缺失碱基阅读错误。
454测序技术相比较其他第二代测序技术如Solexa和SOLiD, 在读长上有着巨大的优势,但是目前成本要略高。
总体而言,高读长使得454技术比较利于De Novo拼接和测序。
焦磷酸测序原理(Pyrosequencing)2. Illumina Solexa测序技术2006年包括Illumina和Solexa在内的四家公司合作开发出了一种基于“边合成边测序”(Sequence By Synthesis)原理的新测序技术。
这种测序仪后来被成为Illumina Genome Analyzer,即通常所说的Solexa测序仪。
与454测序技术不同的是,Solexa测序样品制备用“桥式PCR”(Bridge PCR)技术(图一b)在芯片(Flow Cell)上扩增DNA,生长DNA簇(Cluster)。
芯片上的每个DNA簇都包含成千上万单克隆扩增子。
以每个DNA单链为模板,互补逐个合成DNA第二链。
每种单核苷酸的碱基上都有特异荧光标记,3’-羟基上有可逆的阻断(block)基团。
每连接上一个单核苷酸的循环中,都有CCD拍摄、切割荧光集团和去阻断(de-block)的过程。
Solexa技术通过四通道拍摄不同荧光来确定合成的碱基种类,从而确定DNA序列。
这种“边连接边测序”的特点在于,由于在合成过程中引入多步生化反应,使得读长较短(35bp),但通量更大。
虽然较短的读长给拼接造成了困难,不利于De Novo测序,但在一些对读长要求不高的应用(如重测序)中有得天独厚的优势。
3.AB SOLiD测序技术与454技术类似,SOLiD测序也采用体外乳液PCR(emulsion PCR)来扩增DNA文库,扩增子结合在1μm的磁珠表面。
SOLiD测序技术的核心在于一种“边连接边测序”技术(Sequencing By Ligation),使用DNA连接酶而非聚合酶,将8个核苷酸的随机探针在模板上与测序引物连接,八核苷酸探针的前5个碱基随机,共1096个。
其中检测的第4、5个碱基用特异荧光标记,通过5轮的反应与特殊的信息解读,就可以将一定长度的末端序列读出。
SOLiD测序与Solexa测序相似的是读长短(36bp),芯片通量大,成本也类似。
但是SOLiD特殊的双碱基读谱对信息分析的要求较高,在SNP检测上有着独有的优势,而且理论上错误率比454技术和Solexa技术更低。
图一a.乳液PCR ( emulsion PCR )b.桥式PCR ( bridge PCR )4.HeliScope测序技术2008年商品化HeliScope测序仪是由Helicos公司的开发的单分子测序仪。
由于上机前不需要对文库进行任何扩增,因此是第一台真正意义上的单分子测序仪(tSMS, true Single Molecular Sequencing)。
和其它第二代测序仪类似,Helicos技术首先将基因组DNA打断成100bp-200bp的片段。
然后将片段的3’端连接上标记Cy3荧光分子的多聚A尾巴(Poly A tail),与芯片(Flow Cell)上连接的数十亿条Poly T寡聚核苷酸退火杂交,从而被原位固定在芯片上。
HeliScope的测序原理采用的是单分子“边合成边测序”,在DNA聚合酶的作用下,Cy5分子荧光标记的单核苷酸依次互补合成在模板上,每一轮反应经过洗涤、原位拍摄、切割荧光分子一系列过程确定碱基种类,再进入下一轮反应。
Helicos通过一系列电子技术和荧光能量共振转移(FRET)技术,提高了CCD的信噪比和检测灵敏度,从而真正达到了单分子信号检测,读长可以达到25bp以上。
HeliScope测序在每一轮反应中没有如Solexa那样引入阻断(block)和去阻断(de-block)过程,因此面临和454类似的问题,即如何区分同聚序列(Homopolymers),然而,Helicos的单分子检测使它避免了这个问题,即可以通过降低核苷酸合成速率的方法。
事实上,Helicos发现连续的合成相同的标记核酸产生的淬火作用能够区分同源多聚核酸的数目。
HeliScope测序原理5.新一代测序技术的优势和挑战与传统Sanger法测序相比,包括Roche 454、Illumina Solexa、AB SOLiD和Helicos在内的第二代测序技术既在测序速度和成本上有着巨大的优势,也在读长和错误率方面依然存在着挑战。
前面已经提到,Sanger测序法在今天仍然有着新测序技术不可比拟的优势,在某些测序应用方面仍然有广泛的应用。
因此,我们必须灵活发挥这两代测序技术的优势,根据测序应用的特点决定使用哪种方法,在必要时将两类方法结合起来,以期最高效最方便的完成测序任务。
第二代测序技术的优势很明显,主要包括以下几个方面:1. 在文库构建方面,新技术抛弃了Sanger 法的体内扩增,采用了诸如乳液PCR或桥式PCR等体外扩增方法,甚至如Helicos的单子分测序,根本不需要扩增就能达到信号检测的灵敏度。
这大大简化了文库构建的操作,避免了克隆构建、转化等繁琐操作,极大的提高了效率,加快了测序速度。
2. 第二代测序技术从大规模提高通量和微量化反应体系入手,将测序成本大大降低了。
尽管Sanger测序法也在努力寻求在芯片上大规模集成毛细管电泳以实现更大通量的方法,但是,第二代测序技术不需要电泳,这就轻松突破了提高通量的瓶颈。
现在,已经能做到在一块芯片(flow cell)上集成上亿的反应体系,这是Sanger法远远不能达到的,并且,随着电子技术的进步,通量还会继续提高。
通量的提高不仅降低了成本,也提高了测序速度。
另一方面,由于芯片上反应体系的微量化,在最大程度上减少了反应试剂的用量,与Sanger法相比,这是成本降低的重要方面。
正是出于上述原因,新测序技术的速度比Sanger法快了100倍,成本也降低了100倍。
尽管如此,就目前而言,第二代测序技术所面临的问题也不容忽视。
第一,读长问题。
几种新技术中只有使用焦磷酸法测序的454技术读长能够达到300bp左右,其它所有技术的读长都只有几十个碱基。
而Sanger法的读长目前已经可以轻松达到几千个碱基。
短读长虽然在某些应用(比如表达谱)上有优势,但在全基因组de novo测序,重测序等基本应用方面,短读长给数据处理和拼接造成了很大困难。
目前,所有第二代测序机型都在为提高读长努力。
但是,由于测序原理方面的局限,提高读长往往会带来第二个问题,即读错率。
就目前读长而言,新测序技术的单碱基读错率比传统Sanger法至少高出十倍,并且会随着读长加大而提高。