外显子组测序信息分析
Mismatch_rate_in_target_region8 Mismatch_rate_in_all_effective_sequence9
Base_covered_on_target(Mb)10 Coverage_of_target_region11 Fraction_of_target_covered_with_at_least_20x12 Fraction_of_target_covered_with_at_least_10x13 Fraction_of_target_covered_with_at_least_4x14
13721 92.05 47.31
12636 90.86 46.75
9776 66.84 43.05
9616 64.37 41.45
6904
6815
6684
6437
当比对到参考基因组目标区域的数据量在60%之上,认为外显子捕 获效率合格。
3.2.3、染色体覆盖深度分布
注:横坐标为染色体长度,纵坐标为覆盖深度取对数。
二、外显子组测序流程
基因组DNA的随机打断 DNA片段生物信息分析
三、外显子组测序信息分析流程
主要信息分析内容归类
3.1、数据过滤与评估 3.2、整体质量评估 3.3、SNP检测与注释 3.4、InDel检测与注释 3.5、高级分析
外显子组测序在医学研究中的应用
一 • 外显子组测序技术简介 二 • 外显子组测序流程 三 • 外显子组测序信息分析内容 四 • 外显子组测序的应用方案
一、外显子组测序技术简介
外显子测序是指利用序列捕获技术将全基因组外显子区 域DNA捕捉并富集后,再进行高通量测序的基因组分析方法。
外显子组序列仅占全基因组序列的1%左右,与人类85% 致病基因突变相关。与全基因组测序相比,外显子组测序不 仅费用较低,而且测序覆盖度更深,数据准确性更高。
3.3.2、 SNP注释
Type
INTERGENIC INTRAGENIC INTRON
UPSTREAM DOWNSTREAM UTR_3_PRIME UTR_5_PRIME SPLICE_SITE_ACCEPTOR SPLICE_SITE_DONOR
CDS
Other
NON_SYNONYMOUS_CODING NON_SYNONYMOUS_START START_GAINED START_LOST STOP_GAINED STOP_LOST SYNONYMOUS_CODING SYNONYMOUS_STOP
3.3、 SNP检测及注释
3.3.1、 SNP检测
SNP的检测主要使用GATK软件工具包实现。
BMK ID SNP Number
Transition Number
X1 X2 X3 X4 Total
985254 842516 263326 289954 1556901
669172 573399 178220 196145
3.3.3、突变特征
突变位点上下文碱基偏好性
注:横坐标为突变位点上下文的碱基位置,0为SNP突变位点,负数代表突变位点前的碱基, 正数代表突变位点后的碱基,纵坐标为不同碱基对应的比例。从图上可以看出,不同类型 的SNP突变上下文具有不同的碱基偏好性。
3.4、 InDel检测及注释
3.4.1、 InDel检测
3.1、数据过滤与评估
3.1.1、原始数据过滤
1. 过滤接头。对含接头的reads去除接头序列。 2. 一条reads上N(未能确定出具体的碱基类型)的比例
大于5%,则过滤掉该reads。 3. 过滤低质量reads,过滤掉Q30<85% reads。
3.1.2、测序数据统计与评估
测序质量值分布图
892 975
111 121 218 865 610 652 51 277 303 32 77 112 124
776 850 14 14 19 21 882 925 00 93 100 32 10 8 10 923 940 00 32 18
3.3.3、突变特征
突变频谱图
注:横坐标为不同类型的突变,纵坐标为不同类型突变对应的频率。
Transversion Number
316082 269117 85106 93809
Ti/Tv Ratio
2.11 2.13 2.09 2.09
Heterozygosity Number
207400 167179 26436 30446
Homozygosity Number
777854 675337 236890 259508
Region Insertion Deletion Heterozygosity Homozygosity
Total
R01 51689 57643 89744 19588 109332
R02 44234 51061 78848 16447 95295
X1 118.70
X2 118.70
X3 118.70
X4 118.70
Reads_mapping_ref(single reads)2
182.95
168.48
97.76 96.16
Mapping_datasize(Mb)3 Effective_sequences_on_target(Mb)5 Average_sequencing_depth_on_target7
R01
449352
3425
401739
24452
95551
395 2165 31 61 1971 2 378 8 26 5 1772 1 106
R02
380794
2896
343966
21350
83565
407 1891 36 54 1899 1 346 6 24 3 1732 1 89
R0 R0 34 113 125 110 682
碱基含量分布图
3.2、整体测序质量评估
3.2.1、测序深度统计
注:横坐标代表测序深度,纵坐标代表目标区域上对应深度的碱基数占总碱 基数的百分比。目标区域的单碱基分布近似服从泊松分布。
3.2.2、外显子捕获统计
Target region stat Length_of_target_region(Mb)1