从临床进入基因检测流程是入口,检测结果结合临床信息进行合理解读是出口,这一入一出之间需经历检测前临床咨询部分、实验室部分、信息分析部分、临床解读部分共四个环节。
其中的策四部分临床解读部分即是根据检测结果、患者信息、医生共识综合判断,临床和遗传咨询有效衔接、充分沟通,最终出具临床解读报告。
在做成临床解读报告之前,首先需要将解读的各个环节进行明确,包括解读的步骤流程,解读的技术细节。
这样才有可能真正的做到解读的规范化,使解读过程有据可依,有章可循,才能出具一份好的临床解读报告,基因检测才能更好的服务患者和临床医生。
从大的框架讲,基因检测数据解读可分为三个步骤:原始数据T分析数据、基于数据库的解读-与患者个体表征/临床病例结合的解读。
1、读懂原始数据将测序的原始序列数据(FASTQ )去除接头及低质量序列,经BWA软件比对至GRCh37/38 (NCBI 版本)或hgl9/hg38 (UCSC版本)人类基因组参考序列上;Picard去除重复序列使用GATK 检测SNV与Indel变异使用ANNOVAR 进行变异注释。
最后获得一份.vcf文件(图1)。
Ph«*e 1:primary processingR*w(FQW)图1从测序的原始序列数据到vcf文件的流程—份vcf文件包含如下基本信息。
CI LT Start End Ref AltFunc. refGencGene, refGcnoGeneDotail.refGoneExonicFunc. /efGeno ofGoneChr:变异所在的染色体Start :变异在染色体上的起始位置End :变异在染色体上的结束位置Ref :参考基因组的序列Alt:检测样本基因组的序列Func.refGene :变异所处参考基因的功能区(exonic Jntronic ,UTR3 ,UTR5 , splicing , upstream , downstream , intergenic )(此处的exonic 特扌旨夕卜显子编码氨基酸区,不包括外显子的UTR区)Phas« 2: variant detection Phase 3: variant annotationGene.refGene :变异所处参考基因名称(如果是基因间,则是两侧的基因)GeneDetail.refGene :非外显子区处于特定转录本中的具体位置(如果是基因间,则是距离两侧的基因的距离)ExonicFunc.refGene :外显子区的变异类型(frameshift insertion , frameshiftdeleti on , stopgai n , stoploss , non frameshift insertio n , nonframeshiftdeletion , synonymous SNV , nonsynonymous SNV ),如果这一栏是一个"・”的话,就说明该变异不在外显子区AAChange.refGene :氨基酸水平的改变(同一个基因可能具有多个转录本,氨基酸改变的位置在不同的转录本中有可能不一样)经注释后的vcf文件还会包含如下信息:CLINSIG :该变异在ClinVar数据库中的临床意义(Benign , Likely benign ,Un certain sign ificance , Likelypathoge nic , Pathogenic , Drug-response ) CUNDBN :该变异所弓I起的疾病名称CLINACC :该变异的登记号和版本号(VariantAccession and Versions )CUNSDB :该变异所引起疾病所在数据库名称CUNSDB :该变异所引起疾病所在数据库中的IDPopFreqMax :该变异人群中的最大等位基因频率1000_AII :该变异在千人基因组计划数据库中的人群等位基因频率1000.AFR :该变异在干人基因组计划数据库中非洲人群的等位基因频率1000.AMR :该变异在千人基因组计划数据库中美国人群的等位基因频率1000.EAS :该变异在干人基因组计划数据库中东亚人群的等位基因频率1000.EUR :该变异在千人基因组计划数据库中欧洲人群的等位基因频率1000_SAS :该变异在千人基因组计划数据库中南亚人群的等位基因频率Snpl38 :该变异在dbSNP数据库中的IDCosmic70 :该变异在癌症体细胞突变数据库COSMIC中的IDESP6500siv2_ALL :该变异在美国国家心月市血液硏究所的ESP6500数据库中的人群等位基因频率ESP6500siv2_AA :该变异在美国国家心肺血液研究所的ESP6500数据库中的非洲裔人群等位基因频率ESP6500siv2_EA :该变异在美国国家心肺血液研究所的ESP6500数据库中的欧洲裔人群等位基因频率ExAC_AII :该变异在ExAC数据库中的人群等位基因频率ExAC_AFR :该变异在ExAC数据库中非洲人群的等位基因频率ExAC_AMR :该变异在ExAC数据库中美国人群的等位基因频率ExAC_EAS :该变异在ExAC数据库中东亚人群的等位基因频率ExAC_FIN :该变异在ExAC数据库中芬兰人群的等位基因频率ExAC_NFE :该变异在ExAC数据库中非芬兰欧洲人群的等位基因频率ExAC.OTH :该变异在ExAC数据库中除已指走人群之外的人群等位基因频率ExAC_SAS :该变异在ExAC数据库中南亚人群的等位基因频率OG46 ICGC-Id ICCC_Occirrence ncl60 Interpro.domaln dbs c Slf/_ziEA_SCORE dbscSNV_RF_ SCORE omlmtKnyCG46 :该变异在CG46数据库中的人群等位基因频率。
CG46是由CompleteGenomics( BGI公司对46个样本的全基因组测序而建立的数据库,截止2017年,他们巳经对超过20000个样本进行了全基因组测序和分析。
ICGC_Id :国际癌症基因协作组中各硏究的IDICGC_Occurrence :该变异在ICGC数据库中的发生情况。
该栏数据结构如COCA-CN|1|187|0.00535 ,指中国结直肠癌的硏究(https:/// ),在187例患者中有1例发生突变,突变比例为0.00535Nci60 :该变异在nci60数据库中的等位基因频率。
Nci60是被广泛用于药物筛选的人类60种肿瘤细胞系组合,已经进行了全外测序。
随舂研究的进步,美国癌症硏究所NCI在2016年宣布NCI-60细胞系"退休”,PDX新模型"上任"。
Interpro_domain : InterPro算法预测的突变所处的保守结构域(/interpro/ )dbscSNV_ADA_SCORE :基于adaptive boosting预测变异对剪接位点改变的可能性dbscSNV_RF_SCORE :基于Random Forest预测变异对剪接位点改变的可能性。
得分代表剪接影响的可能性大小,如果dbscSNV_ADA_SCORE和dbscSNV_RF_SCORE得分均小于0.6 ,则对剪接位点没有影响(PMID: 28132688 )。
Omim_phenotype :在OMIM数据库中该基因(不是该变异)对应的表型QUAL :测序质量分数,计算方法为Q = -10logl0(e),可衡量碱基未正确检出的概率。
FILTER :对变异位点做进一步的过滤。
无论你用什么方法对变异位点进行过滤,过滤完了之后,在FILTER —栏都会留下过滤记录,如果是通过了过滤标准,那么这些通过标准的好的变异位点的FILTER-栏就会注释一个PASS ,如果没有通过过滤就会在FILTER这一栏提示除了PASS的其他信息(other FILTER flag \ 如果这一栏是_个…的话,就说明没有进行过任何过滤INFO&FORMAT :该栏数据结构GT:AD:AF:ALT_FlR2:ALT_F2Rl:FOXOG:QSS:REF_FlR2:REF_F2Rl e GT :基因型,对于一个二倍体生物,0表示跟REF 一样,1表示表示跟Alt 一样;2表示第二个Alt ; AD :对应两个以逗号隔开的值,这两个值分别表示覆盖到REF和Alt减基的reads数,相当于支持REF和支持Alt 的测序深度;AF :支持Alt的测序深度占总测序深度的比例,即等位基因丰度NORMAL :与肿瘤组织对应的正常组织中的信息,一般通过外周血测序获得TUMOR :肿瘤组织中的信息此外还可能包含各种算法对非同义突变保守性预测值,这些算法包括SIFT prediction仃:tolerated; D: deleterious) , PolyPhen HumanDiv prediction (D:Probably damaging, P: possibly damaging; B: benign), LTR、MutTaster. MutationAssessor. FATHMM、CADD、GERP++静。
2、分析挖掘数据对全外显子检测(或者属于较大pannel范畴的情况也可以),可以进行肿瘤突变负荷(Tumor mutationburden )计算。
临床研究表明,使用PD1/PD-L1 抑制剂等免疫治疗药物时,具有较高突变负荷的患者具有较好的客观缓解率(ORR)、较长的无进展生存期(PFS),同时持续临床疗效(DCB)也更佳。
然而,由于目前没有统一的肿瘤突变负荷计算方法,在做纵向比较时需谨慎。
该分析使用的计算方法为,肿瘤组织中突变丰度大于等于5% ,正常组织中突变丰度小于等于1% , ExonicFunc.refGene—栏去除、synonymous SNV、unknown 标签的数据,PopFreqMax —栏去除人群等位基因频率大于0.1%的数据(注意保留)o此夕卜,免疫治疗相关的一些基因突变(如EGFR、干扰素信号通路的JAK、B2M等)值得关注。
对全外显子检测,能够发现大量的体细胞突变。
有的突变是致病性的称为为驱动突变或司机突变(与之对应的称为乘客突变或继发性突变),这些突变或导致DNA修复缺陷,或导致细胞不受调控的増殖生长,或导致细胞不能正常凋亡,或导致细胞侵袭性増强,或导致免疫逃逸。
因而从大量的体细胞突变中鉴定肿瘤的岖动基因突变既是基因检测的重要目的之一,同时也是一项艰难的工作。
一般来说一个肿瘤的发生其驱动基因突变的数目为0-8个且他们不会分布于同一个关键的肿瘤相关信号通路中(t匕如BRAF和KRAS ,比如APC和CTNNB1 )或并行的两个重要信号通路中(比如PIK3CA 和KRAS )。