美国病理学会(CAP)对于二代测序临床诊断的实验室标准相对于桑格测序来说,二代测序的较高的通量和每个碱基所消耗较低的成本,使得其快速应用于临床检测领域。
尽管在1988年美国病理学会(CAP)没有给出这项技术在临床诊断上的实验室标准规范。
但在过去的几年,能够提供二代测序检测服务的实验室相应的不断增加。
目的:针对应用二代测序技术的临床诊断给出一个检查清单用以标准化实验操作平台和生物信息数据分析平台。
因为基于NGS的临床检测是一个新的诊断技术,而且相对于一代测序其更为复杂,所以目前亟需针对这些检测制定新的标准规范。
设计:针对NGS制定必要的规章制度,促进这项技术更好地应用于临床检测。
在2011年CAP成立了NGS工作组委员会,以对检测清单的项目内容进行仔细研究。
结果:在CAP分子病理学检测清单中总共包含针对实验操作平台和生物信息数据分析平台的18项实验室认证要求清单。
结论:这项经CAP委员会认真考虑后所给的报告陈述了对于制定新的检测清单的重要性。
其中包含文件、批准、质保、验证、异常日志、监控升级、各个版本解释及报告、附带的发现、数据储藏、可追溯性模板、数据传送保密性等的处理。
DNA测序即二代测序技术(NGS)由七十年代的化学测序法和桑格测序法逐渐演化而来。
NGS与一代测序主要的不同是其可以并行的对数以百万的DNA短片段同时测序而非仅有一种DNA片段。
在九十年代中期基于荧光毛细管凝胶电泳的自动化桑格测序的产生使得DNA测序普遍应用于临床诊断。
而NGS更高的通量远远超过自动化桑格测序。
二代测序的较高的通量和每个碱基所消耗较低的成本,使得其快速应用于临床检测领域,尽管NGS各方面分析都更为复杂。
包括数据获得和储藏的案例远超出于1988年临床检验科改善后的实验室修正案,对于后续数据计算具有较大挑战性。
NGS检测的领域涉及遗传病、实体瘤、恶性血液病、传染性疾病,人类白细胞抗原分析,非侵害性产前诊断,胎儿染色体异常检测。
但在过去的几年,能够提供二代测序检测服务的实验室相应的不断增加。
尽管在1988年美国病理学会(CAP)没有给出这项技术在临床诊断上的实验室标准规范。
为应对这种需求,CAP成立了NGS工作组委员会,以在这项技术发展初期制定第一套临床检验标准。
考虑到基于NGS的测序技术是在原有技术上对仪器、测序反应试剂、生物信息分析等的改进,工作组致力于制定一套用于规范NGS临床检测的工作框架管理标准以更好地采纳基于NGS的检测技术。
二代测序技术由两部分组成,实验操作平台和生物信息分析平台。
实验操作平台一般包含所有的以下流程:病人样品采集处理,核酸提取,片段化,分子标签,外显子组或基因组靶序列富集,接头连接,扩增,文库准备,上样,序列读出。
序列是通过对数以百万的DNA片段的读取全自动化的产生。
化学实验反应后便是大规模的计算和生物信息分析。
通过各种的算法将测到的短的序列去比对匹配人类参考基因组序列。
经过图谱比对后,与参考基因组不同的核苷酸变异被识别出来。
另一个独立进程是去逐一的或组合的根据其相应的临床表现去分析与临床相关的变异类型。
对于个别病人案例,已经被确认的变异参考其正常基因功能受损的注释内容进行评估,如早产转录因子、截断蛋白、非同义突变对蛋白功能的影响或剪接位点的改变。
为了对疾病和有害突变的关系做出明智的决定,需要根据病人的临床症状结合基因组研究成果。
作图比对、变异识别、变异注释以及一定程度上的临床解释包含了生物信息分析的全部工作框架。
CAP NGS工作组考虑到化学实验反应平台与生物信息分析平台是相分离的,所以制定的标准也是分开的。
一部分实验室利用国外的设备去进行一部分的二代测序检测。
一个实验室提供从实验操作平台到生物信息分析,他们临床检测的验证可以整合起来。
在CAP分子病理学检测清单中总共包含针对实验操作平台和生物信息数据分析平台的18项实验室认证要求清单。
NGS检测项目清单包括对于流程文件建立、批准、质保、验证、异常日志、监控升级、各个版本解释及报告、附带的发现、数据储藏、版本可追溯性、数据传送保密性等的处理。
如同这份报告中描述一样,工作组的目标就是为NGS检测服务提供最初的基本鉴定合格需求。
可以预见的就是只要基础的检测验证规范需求到位后,随后便会有附加的其它专门规程。
这些在注释部分对其进行进一步解决。
这项经CAP委员会认真考虑后所给的报告陈述了对于制定新的检测清单的重要性。
另外,这份报告可以作为CAP NGS检测清单的补充,因此内容上与2014年检测清单需求紧密相连。
NGS实验标准操作流程文件实验室需要建立一个标准操作流程文件。
一个详实的标准操作流程文件是临床实验室质量评价的主要部分。
所有的DNA/RNA样品准备、片段化、文库准备、分子标签、样品混合、合成测序相关实验操作必须建立标准操作流程文件,这样才能对每一步及随后的操作进行追踪。
这包含所有的方法、试剂、仪器、仪器软件、之前的版本等。
另外,对于质控标准也需要进行描述。
一些案例在后面重点提出。
NGS靶序列实验(例如多基因模块或外显子测序)可以在测序前对感兴趣的基因区域进行捕获,关于捕获区域的详细信息以及富集步骤都应以文件的形式进行详细描述。
对于处理不同类型样品的临床实验室,如血液、石蜡包埋的福尔马林固定的样本,都应该针对不同样品制定相应的SOPs。
用于将病人样本合并的反应试剂和规程必须详细说明,并且其中应包含测序接头信息。
用于对运行好坏的评价的质控参数的权衡也需要文件化。
常用的度量如目标区域内Reads数的比例,质量符合规定的碱基比例,覆盖度的阈值,平均测序深度。
实验室必须明文规定好样品制备和测序的接收或拒收标准。
最重要的是明确和总结不能够进行分析的区域(如测序深度不充分)。
NGS实验操作平台验证实验室对NGS实验平台进行验证,当有所修改变动时,要对整个流程再次进行验证,确保流程中每一部分的表现符合要求。
——如在分子诊断领域或临床实验室的其他领域,所有的实验室研发的测试,对NGS程序性能分析必须在内部进行验证后才可应用于临床。
二代测序实验平台包含很多步骤,非常复杂。
每一步骤应分别根据经验综合决定最佳条件和参数设置。
这些东西设置好后,必须进行从开始到结束的全部测试的性能验证,包括实验平台和生物信息分析平台。
在验证期间需要确定的重要性能有分析的敏感性、特异性、准确度(接近真实值的程度),精确度(重复性和可靠性),检测极限。
对于任何分子实验,针对不同的样品类型(血液、唾液、组织),必须独立的进行效验。
二代测序检测是旨在对于基因组的多个大的区段进行详细查看。
因此,NGS允许检测到新的,以及已知的序列变异。
因为无法证实所有的理论上可能的变异,所以必须将methods-based(其它检测方法)和analyte-specific(特定分析物)相结合,作为验证方法来判定检测的性能。
通过对已发表的与NGS平台准确性相关的文章的咨询,将有利于对自己实验室验证性工作的认知。
在大多数情况下,考虑到桑格测序是金标准,可以通过其确定变异位点。
然而,在一些情况下变异位点验证信息也可以通过寡核苷酸微阵列基因分型数据获得。
针对于NGS检测,多个专业机构已经发布了关于分子检测验证的指南以供读者参考。
NGS工作组对于验证性需求中的最小样品数进行了广泛深刻的讨论。
对于不断发展的NGS技术以及在诊断实验室多种多样的应用,这种讨论为时过早。
而且存在的问题是设定最小样品数对于NGS诊断来说可能会导致其验证不足。
工作组同时也注意到对于已经报道的文章里NGS的验证的样品数量有明显不同(20-80),这表明,individual laboratories are on a validation ‘‘learning curve.’’。
对于NGS验证需要运行的样品总数量主要取决于检测的区域大小(从技术特性上来说较大的检测区域将会检测到更多的变异位点)。
根据特异变异位点的数量进行评估,根据可能的要求,通过等位基因频率范围,去判定检测的限度,根据样品运行次数和数量去设定其精确度。
出于统计方面考虑,NGS工作组总结到关于样品数量不能全面或普遍的应用于二代测序的众多实验中(如扩增子相对于靶序列捕获,较少基因量相对于外显子组和全基因组,遗传疾病相对于肿瘤相对于传染病)。
因此我们给出多个脚本(如样品对methods-based的处理,对样品重复性和可靠性的评价,以及临床样本用于评估诊断特异性敏感度),每一项都将会需要样品,而其数量会随着实验背景不同而有所变化。
以下我们会突出强调对需求量及一些性能分析参数验证的原则。
通过使用methods-based评估分析的灵敏度,目的在于最大化突变序列数量,相对于金标准增加分析的可信度。
这些数值会外推到所有的碱基。
对于这种methods-based,致病性变异分析是无关的,因为这不受技术检测能力影响。
然而尽量多的利用基因组中的不同区段去判定基线非常重要,因为序列的背景是一个重要的影响因素。
另外实验室应该分别对所有的与检测相关的变异类型进行性能分析判定(如SNV,InDel,CNV,结构变异,homopolymers)。
适当的确定变异类型的最大数量的方法可能会包含内部不同研发测试的累积分析,前提是用相同的鉴定工具。
另外,几个可获取的公共数据库可以提供外显子组或全基因组变异位点的识别,以为临床检测服务。
另外疾病预防控制中心和国家生物技术信息中心合作成立网站,以方便两个测序基因组以及临床靶序列数据的获取。
这些数据库提供了变异位点的大量设置,这将有助于得到技术性能规范。
然而当NGS检测中包含有除了一些更广泛性的methods-based方法外,一个特异型分析的验证是有必要的。
由此,阳性对照对于NGS检测所熟识的基因相关的变异位点(如CFTR 基因p.F508缺失变异)引起的疾病极为重要的。
特异性分析通常需要阴性样品进行计算,去定义负数部分。
在整个实验部分methods-based方法可用于特异性计算分析,如假阳性率的判定。
在临床样本中它对于判定假阳性数量同样具有作用。
注意到特异型分析在I类错误类型的比例,包括碱基识别错误,错位引起的错误,变异识别错误。
判定检测限对于一个含有异质基因类型的样品(如肿瘤样品、用于产前诊断的母亲血液,镶嵌样品)查询的实验是非常重要的。
考虑到桑格测序过去一直是在验证期间的金标准,但其灵敏度低于NGS,所以对NGS的灵敏度验证具有一定挑战性。
样品混合实验(已知等位基因频率的稀释)应该至少用到3个样品(生物学重复)。
对于单通道测序仪,内部运行的差异性可以通过用相同样本的不同条形码检测(技术重复)。
同源序列如假基因可以干扰变异位点识别的精确性,这对正确的去分析受影响的基因形成了巨大的挑战。
预先生物信息同源性分析将会有助于确定来自同源序列可能的干扰。