当前位置:文档之家› 转录组有参考生物信息分析结题报告模版-V2.0

转录组有参考生物信息分析结题报告模版-V2.0

转录组有参考基因组生物信息分析结题报告获得原始测序序列(Sequenced Reads)后,并且其相应的基因组参考序列( Reference Genome )可以获得的情况下,可以用有参考基因组信息分析流程对数据进行详细的分析,分析流程图如下:1. 原始序列数据高通量测序(如Illunima HiSeq TM2000/ Miseq等测序平台)测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。

测序样品中真实数据随机截取结果如下:@HWI-ST1106:227:D14F6ACXX:1:1101:1202:2188 1:N:0:GCCAAT CGGATGATCTTCTTAATCTCTCCTTGCATAGTTATGAAACAGTCCGTGGACTTGCTGGAAAATCTCTCTTGAAGATGATGAAGAGATGGCCCTCTACAAT +CCCFFFDFFHHHHJJJJJIJIGGGIGICIGIIJEIIJIIJJI@DHEDHECFGGAHGGJGHIICGEEIEHGGGIECEEHH@HE>C@EBBE@CCDDCCCDDC @HWI-ST1106:227:D14F6ACXX:1:1101:1237:2217 1:N:0:GCCAAT GAAGGTGAGTCTGAGGAGGCCAAGGAGGGAATGTTTGTGAAAGGATATGTCTACTAAGATATTAGAAAGTATGTACTACTACTACTACTACATGTTTTCA +@@@FDADDFDHFHIIIDHIIJJJGICGGGCGHGFIGHBHEHHGI;BDHHCFGCHIIIIEHGIGHHIJJE7??ACHCDFFFFFEEECCEE>C>ACCCDC>@ @HWI-ST1106:227:D14F6ACXX:1:1101:1382:2195 1:N:0:GCCAAT TTTTGCAACAATGGCTTCCACCATGATGACTACTCTACCACAGTTCAATGGACTCAAACCCCAACCTTTCTCAGCTTCTCCAATTCAAGGCTTGGTGGCA +@@@DD3DDFFFF:CDGI@GIEEDH<F49C?EGFBF9?FF?C@BFEFGIII3BDDFFIIG7FFFIIBEFFIFDC3ACBDDDBD@>@AAD;;;@@####### @HWI-ST1106:227:D14F6ACXX:1:1101:1255:2239 1:N:0:GCCAAT CGGATTTTCAAGGGCCGCCGGGAGCGCACCGGACACCACGCGACGTGCGGTGCTCTTCCAGCCGCTGGACCCTACCTCCGGCTGAGCCGATTCCAGGGTG +CCCDFFFFHHH?FHIIIJJJJJIGBEHHJJBHBDDCDAC??@@BDBBBBD8BDDCDDACC@A?@BBB@<<CB?CB<AD?9<B@>(8>?395?4:(:<@## @HWI-ST1106:227:D14F6ACXX:1:1101:1423:2239 1:N:0:GCCAAT CTTGTATTGCTCTCCCACAACCCCGTTTTCACGGTTTAGGCTGCTCCCATTTCGCTCGCCGCTACTACGGGAATCGCTTTTGCTTTCTTTTCCTCTGGCT +CCCFDFFFHHHHHJJIJJJJJIJJGGIHIIGIIJGIGGIJJGGGJGIJ>FGIIGHGGBEHBCCBBDDD@BB@@<AABDDBCACDCDACDCD@:>@C::@C2.测序数据质量评估2.1 测序错误率分布检查测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。

通常测序序列(Sequenced Reads)5’端前几个碱基的错误率相对较高,随着序列的延伸,3’端碱基错误率会不断升高,这是由高通量测序的技术特点决定的。

项目结果见图1。

图1测序错误率分布图横坐标为reads的碱基位置,纵坐标为单碱基错误率。

其中前100个碱基位置为双端测序序列的第一端测序Reads的分布情况,随后100bp是另一端测序reads的分布情况。

2.2 A/T/G/C含量分布检查对于RNA-seq来说,因随机性打断及G/C和A/T含量分别相等的原则,理论上GC及AT含量每个测序循环上应分别相等,且整个测序过程稳定不变,呈水平线。

项目结果见图2。

图2GC含量分布图横坐标为reads的碱基位置,纵坐标为单碱基所占的比例。

不同颜色代表不同的碱基类型2.3 测序数据过滤测序得到的原始测序序列(Sequenced Reads)或者raw reads,里面含有带接头的、低质量的reads,为了保证信息分析质量,必须对raw reads过滤,得到clean reads,后续分析都基于clean reads。

项目结果见图3。

图3原始数据过滤结果2.4 测序数据质量情况汇总样品测序产出数据质量评估情况详见表1。

表1数据产出质量情况一览表Sample Raw reads Clean reads Bases Error(%) Q20(%) Q30(%) GC(%) Dup(%) TS-1_1 48900437 48857403 4.89G 0.03 98.24 94.22 43.69 79.61 TS-1_2 48900437 48857403 4.89G 0.03 96.96 91.59 43.68 78.21 TS-2_1 50753113 50709069 5.07G 0.03 98.26 94.3 43.41 79.26 TS-2_2 50753113 50709069 5.07G 0.03 97.11 91.92 43.44 77.83 TR-3_1 37877095 37819080 3.78G 0.03 97.41 92.21 47.79 82.78 TR-3_2 37877095 37819080 3.78G 0.04 95.91 89.18 47.81 81.45 TR-5_1 55854530 55791168 5.58G 0.03 97.9 93.38 45.57 81.97 TR-5_2 55854530 55791168 5.58G 0.03 96.66 90.83 45.54 80.75Raw Reads:由测序得到的原始图像数据经base calling 转化而来的原始序列reads。

Clean reads:将Raw Reads过滤得到的reads。

Bases (Clean bases):过滤得到的数据的总碱基数。

Error (Error rate):指测序错误率,与碱基质量值之间有一定的对应关系。

Q20:测序错误率≤1%的碱基数目比例。

Q30:测序错误率≤0.1%的碱基数目比例。

GC content:G+C的数量占总的碱基数量的百分比。

Dup (Duplication level):重复的reads数占总reads数的比例。

3.参考序列比对分析3.1RNA-Seq reads参考基因组比对统计如果参考基因组选择合适并且相关实验不存在污染的情况下,实验所产生的测序序列的定位的百分比正常情况下会高于70% (Total Mapped Reads or Fragments),其中具有多个定位的测序序列(Multiple Mapped Reads or Fragments)占总体的百分比通常不会超过10%。

项目结果见表2。

表2 参考基因组比对的统计情况一览表Sample name TS1 TS2 TR3 TR5Total reads 97714806 101418138 75638160 111582336Total mapped 88921431(91%) 92225043 (90.94%) 54554812 (72.13%) 91773760 (82.25%)Multiple mapped 961182 (0.98%) 1053580 (1.04%) 1422941 (1.88%) 1481392 (1.33%)Uniquely mapped 87960249 (90.02%) 91171463 (89.9%) 53131871 (70.24%) 90292368 (80.92%) Read-1 44157413 (45.19%) 45745753 (45.11%) 26677577 (35.27%) 45296200 (40.59%)Read-2 43802836 (44.83%) 45425710 (44.79%) 26454294 (34.97%) 44996168 (40.33%) Reads map to '+' 43944185 (44.97%) 45558208 (44.92%) 26479698 (35.01%) 45055089 (40.38%)Reads map to '-' 44016064 (45.05%) 45613255 (44.98%) 26652173 (35.24%) 45237279 (40.54%)Non-splice reads 64211264 (65.71%) 67345511 (66.4%) 42758444 (56.53%) 68211989 (61.13%)Splice reads 23748985 (24.3%) 23825952 (23.49%) 10373427 (13.71%) 22080379 (19.79%)77892308 (79.71%) 82296934 (81.15%) 45364262 (59.98%) 80126002 (71.81%) Reads mapped inproper pairs3.2RNA-Seq reads参考基因组比对分布图定位到基因组上的测序序列分布统计,用于检测测序序列基因组上的来源。

项目结果见图4。

图4RNA-Seq 测序得到的reads比对到参考基因组不同区域上的分布情况3.3RNA-Seq reads参考序列密度分布图对定位到基因组上的测序序列完成染色体密度分布统计,用于检测染色体上测序序列分布的异常情况。

相关主题