8Gene Express基因快讯2011年第2期对未知基因组测序。 以单分子测序系统PacBio RS为代表的第三代测序技术,是一种模拟天然DNA复制过程的测序技术,不仅融合了天然DNA复制高效准确的特点,而且是世界上唯一可以在不影响聚合酶活性的前提下实时观察DNA合成的测序技术。由于聚合酶的平均反应速度可达1个碱基每秒以上,因而其测序速度比Sanger测序快了几万倍。参与三代测序技术研发的Korlach与Turner,于2009年2月在《Science》杂志上发表了一篇介绍PacBio单分子DNA测序技术的文章,代表了首个第三代测序技术的“原理验证”[2]。其
后,他们又利用SMRT技术,直接测定了DNA的甲基化,这一发表在2011年5月《Nature Methods》上的研究成果,相对于目前流行的第二代测序技术显然又前进了一大步[3]。PacBio RS单分子测序系统目前的读长超过1kb,比第
二代测序要长得多,且不需要常规的PCR扩增过程,错误率也大大降低,聚合酶动力学的直接观察赋予了PacBio RS系统在测序之外的更多应用(表1)。
第一代测序技术第二代测序技术第三代测序技术技术类别直接测序深度测序单分子实时测序
文库构建片段化的基因组DNA克隆到质粒载体上并转化大肠杆菌无需克隆,片段化的基因组DNA在两侧连上接头序列并通过接头与反应基质(磁珠、微珠或芯片)相连无需克隆,片段化的基因组DNA在两侧进行末端修复并连上接头序列
PCR扩增以通用引物对质粒DNA进行PCR扩增以通用引物(与接头序列匹配的寡核苷酸序列)对反应基质上的DNA进行大规模的并行PCR扩增
无需PCR扩增,带接头的DNA与聚合酶结合,然后模拟天然的DNA合成过程
单分子测序技术在靶基因组测序及表观遗传学的应用第三代测序技术
DNA测序技术的变革DNA测序技术,不仅为基因组计划揭开了基因密码的神秘面纱,同时在诸如肿瘤及遗传性疾病治疗的医药行业、材料科学行业、石油替代物研发的生物燃料行业、产能更高的种植业和畜牧业等领域都有着重要的应用价值。测序技术最早可以追溯到20世纪50年代,即1954年出现的关于Whitfeld发明化学降解测序法的早期测序技术报导。但从严格意义上讲,直到1977年Sanger等的双脱氧
核苷酸末端终止法和Gilbert等的化学降解法的诞生,才标志着第一代测序技术的确立。尽管在完成从噬菌体基因组到人类基因组草图绘制等大量测序工作中,第一代测序技术充分展示了可靠、准确等优点,但其对于电泳分离技术的依赖及成本高、耗时长等局限性也日益显现,试想绘制一张人类基因组图谱需耗费数年时间显然无法满足临床科研的紧迫需要。进入21世纪,诞生的第二代测序技术(NGS, next generation sequencing),不仅保持了第一代测序的高准确度,而且大大降低了测序成本并极大地提高了测序速度,可将完成一张人类基因组图谱的时间缩短到一周左右的时间,因而在2007年高票当选《Nature Methods》生物领域最有影响力技术[1]。第二代测序技术最大的缺点在
于测序读长过短,其产生的大量短测序结果,犹如一堆拼图碎片,往往难以进行拼接以获取测序基因组全貌,多数情况下仍须结合第一代测序技术来进行序列的重新测序和结果拼接。可见,牺牲了读长的高速二代测序技术更适合对已知序列基因组的重新测序,显然不适用于9
Gene Express基因快讯2011年第2期荧光标记方式
荧光标记连接到核苷酸碱基上,大分子荧光染料会干扰DNA聚合酶活性
荧光标记连到核苷酸碱基,大分子荧光染料干扰DNA聚合酶活性,背景噪音高荧光标记连到核苷磷酸链并在合成DNA链后自动脱
落,不影响DNA聚合酶活性
测序和检测
以测序引物进行延伸反应,产生以不同荧光标记dNTP终止的长度不一产物,毛细管电泳检测使用可逆终止子(带荧光标记的dNTP)边合成边测序,激光扫描检测边合成边检测荧光脉冲信号的到达和持续时间,反映的聚合酶动力学信息最终转化为实时的序列信息
测序读长800 bp左右100-400bp>1000bp
应用特定区域测序已知基因组测序全基因表达图谱、SNP、 小 RNA、 ChIP、 DNA甲基化等分析,二代测序数据拼接,酶动力学观测等
表1. 一代、二代和三代测序技术的对比情况
PacBio RS系统的技术创新天然的DNA复制是一个相当微观且高速的过程。Pacific Biosciences(以下简称PacBio)公司在克服了酶学、表面化学和检测光学等一系列技术难题的基础上,研发出了单分子测序系统PacBio RS,它可在不影响DNA聚合酶活性的前提下实时地观察DNA合成。首先,实时观察DNA聚合酶需要解决的酶学难题是如何维持DNA聚合酶的高活性。因为传统的核苷酸标记方法是将荧光标记连接到核苷酸的碱基上,也就是掺入DNA链中。由于DNA聚合酶的直径只有15nm,大分子的荧光染料掺入DNA链会干扰DNA聚合酶的活性,造成聚合反应提前终止,影响了测序反应进程。PacBio RS系统采用了一种新型的核苷酸标记方法,即在核苷酸的磷酸链上进行荧光标记,这样一旦核苷酸掺入到新生DNA链中,DNA聚合酶将磷酸基团及其所带的荧光标记一并切除以形成天然DNA链。此后,脱落下来的荧光信号迅速衰减至基线并开始下一轮的合成反应。此标记方法不仅不会影响DNA聚合酶活性,同时游离的荧光信号迅速衰减以降低背景噪音,有利于提高检测过程的信噪比。其次,实时观察DNA聚合酶需要克服的表面化学难题是如何实现单个DNA聚合酶分子在基质表面的锚定和DNA合成反应。PacBio RS系统的测序是在专利的SMRT Cell中进行的,每个Cell中都有一个矩阵,上面有大约150,000个纳米级的ZMW(zero-mode waveguide,零模波导孔)。ZMW是一个直径为几十纳米的小孔,在每个ZMW中,利用专利技术将带有单条DNA样品链的单个DNA聚合酶分子锚定在底部玻璃的表面。随后核苷酸涌入ZMW中,并在阵列表面扩散。当DNA聚合酶检测到正确的核苷酸时,便将其掺入新生链中进行DNA合成反应。每个SMRT Cell能够平行检测至少50,000个单分子测序反应。再次,实时观察DNA聚合酶需要破解的检测光学难
题是如何能在DNA合成期间检测到单个核苷酸的掺入。试想当显微镜实时记录DNA链上的荧光时,周围众多的荧光标记核苷酸会形成非常强大的荧光背景噪音,影响了单分子荧光的检测和记录。PacBio RS系统采用纳米级直径的ZMW,可阻止波长约为600nm的可见激光完全透过ZMW,造成可见激光在进入ZMW后迅速衰减,保证了只有底部30nm被照亮(图1)。单个ZMW中,锚定在其底部的单个DNA聚合酶分子可检测扩散在其周围的荧光标记核苷酸,正确的核苷酸掺入新生链的过程需要几毫秒,而单纯的核苷酸扩散只需要几微秒。这种时间差使掺入的核苷酸产生了类似于脉冲信号的高强度信号,该信号随后被转换成相对应的碱基类型。因此,ZMW有能力在荧光标记核苷酸的背景下检测到单个核苷酸的掺入事件。至于检测信号的记录,PacBio RS系统使用一个大孔径物镜和四个单光子照相机来收集单个ZMW中荧光所发射的光脉冲,实时开展、监控并分析单分子生化反应;并使用一套优化的算法,将光学系统所捕获的信息翻译成ACGT碱基。一旦测序开始,实时的数据就传送到初步分析流水线,生成核苷酸信息和质量值。
基于以上酶学、表面化学和检测光学三种技术的完美融合,使PacBio RS系统在较短的时间内实现对长片段DNA的测序。另外,PacBio RS系统不仅提供全套的测序试剂和仪器配置方案,还自带有一级、二级数据分析软件,可与用户的生物信息学平台实现无缝整合,轻松实现测序数据浏览、数据过滤和比对、诸如单核苷酸多态性(SNP)等稀有突变的可视化筛查等数据分析操作。凭借较少的试剂消耗、简单的样本制备过程,低于一天的检测时间(从样本制备到测序)等一系列技术优势,使PacBio 公司被美国麻省理工学院(MIT)的《Technology Review》杂志评为2010年度全球50家最具创新力的企业之一。
PacBio RS系统在靶基因组测序中的应用PacBio RS系统在微生物、植物、动物的靶基因组测序中的应用,可以以一个最简单的微生物基因组为例,因为典型的微生物基因组一般为200-500万碱基,而通常一个PacBio RS系统的SMRT Cell可产生90Mb、读长为35,000的测序数据。采用平均读长为2700bp及5%大于6000bp的读长,PacBio RS系统可测通一个微生物基因组。此外,
图1. ZMW的检测光路图10
Gene Express基因快讯2011年第2期由于PacBio RS系统的读长较长,在覆盖率较低的情况下也能保证基因序列拼接完全。目前一些短读长技术推荐的基因组覆盖率一般需要100X,若采用PacBio RS系统则覆盖率可降低到30X以下或更低。另外,要完成对病原微生物DNA的快速测序,实现临床研究、农业生物技术、食品安全和生物防御等领域的应用,PacBio RS系统还具有一系列的技术优势:1) 极长的读取长度:可保证长结构变异的识别和完整全基因组的检测,而对基因结构的认识也可促进基因功能的理解;2) 准确性高:精确的单分子分辨率与长读长特点相结合,适合于基因序列拼接;3) 没有GC偏好:由于GC偏好会影响新基因的识别和对剪接异构体形式和表达水平的判断,如果没有GC偏好则可确保任一物种的基因序列的准确测序和拼接,及长重复序列测试;4) 快速出结果:无需扩增步骤的快速样品制备,可快速获得测序和分析结果;5) 更精细的测序:可根据初步测序结果及时优化实验设计方案;6) 动力学信息:可用于研究链特异的碱基修饰,包括潜在的毒力分析[5];
7) 样品制备简单:无需扩增步骤的快速样品制备PACBIO RS 系统可提供多种SMRT测序方案,如标准测序、环形比对测序、频闪测序(测序方案的具体介绍参见基因快讯2011年第一期《单分子测序技术带给基因组学研究及转化医学的革新》一文),每种方法都利用了长片段读取的优势并结合SMRT bell模板形式(模板处理后形成的一个类似哑铃的结构)和单DNA聚合酶原理。根据基因组测序和序列拼接特点,PacBio RS系统给出了一套将长读长测序与环形比对测序相结合的高准确性基因组测序方案(图2):A) 首先,采用高准确性的单分子环形比对结果修正单个长读长序列的错误;B) 修正的长读长结果可导入序列拼接运算法则ALLORA;C)拼接的重叠区可通过重测序和最初的环形比对结果来去除以形成高准确性的拼接序列。
实例1. 病原微生物序列拼接(E. coli De novo Assembly)2011年5月,肠集聚型大肠杆菌(O104:H4)的剧毒性志贺毒素引发的疾病,造成近4,000人严重腹泻和50人死亡。仅四分之一的病例出现溶血性尿毒症症状,且三分之二的死亡病例均出现此类症状。来自BGI、德国Gottingen大学及美国/丹麦研究团队的研究者采用了多种微生物测序的方式来研究此次分离到的致病大肠杆菌菌株,也获得了初步拼接的测序结果 [22]。美国马里兰医药大学(The