当前位置:文档之家› 2_重测序BSA分析项目结题报告

2_重测序BSA分析项目结题报告

重测序BSA项目结题报告客户单位:____________________________________报告单位:____________联系人:____________________________________联系电话: ___________________________传真:___________________________报告日期:____________________________________项目负责人:__________ 审核人: __________________目录目录 (1)1 项目概况 (1)1.1 合同关键指标 (1)1.2 项目基本信息 (1)1.3 项目执行情况 (2)1.4项目结果概述 (2)2 项目流程 (3)2.1 实验流程 (3)2.2 信息分析流程 (3)3 生物信息学分析 (5)3.1 测序数据质控 (5)3.1.1 原始数据介绍 (5)3.1.2 碱基测序质量分布 (7)3.1.3碱基类型分布 (9)3.1.4 低质量数据过滤 (10)3.1.5测序数据统计 (10)3.2 与参考基因组比对统计 (11)3.2.1 比对结果统计 (11)3.2.2 插入片段分布统计 (11)3.2.3 深度分布统计 (12)3.3 SNP 检测与注释 (14)331样品与参考基因组间SNP的检测 (14)332样品之间SNP的检测 (17)3.3.3 SNP结果注释 (19)3.4 Small In Del 检测与注释 (22)3.4.1 样品与参考基因组间Small InDel 的检测 (22)3.4.2样品之间Small InDel 检测 (22)343 Small In Del 的注释 (23)3.5 关联分析 (26)3.5.1高质量SNP筛选 (26)3.5.2 SNP-index方法关联结果 (26)3.5.3 ED方法关联结果 (28)3.5.4候选区域筛选 (29)3.6 候选区域的功能注释 (30)3.6.1候选区域的SNP注释 (30)3.6.2 候选区域的基因注释 (30)3.6.2.1 候选区域内基因的GO 富集分析 (31)3.6.2.2候选区域内基因的KEGG富集分析 (33)3.6.2.3候选区域内基因COG分类统计 (36)3.7结果可视化 (37)4 数据下载 (38)4.1 结果文件查看说明 (38)参考文献 (39)1项目概况1.1合同关键指标(1) 完成X个样品的重测序,共产生XGbp Clean Data,保证Q30达到80%。

(2) 数据评估:测序数据量,测序数据质量和GC含量的统计。

(3) 与基因组比对:比对效率,基因组覆盖度,基因组覆盖深度统计。

⑷变异检测和注释:SNP、In Del的检测和注释。

(5) 关联分析:通过计算两个混池间等位基因的基因型频率确定与目标性状关联的区域。

(6) 候选SNP注释:对关联区域内的SNP注释,包括位置信息和非同义突变信息。

(7) 候选基因注释:对关联区域内的基因进行GO、KEGG、COG、NR、SwissProt数据库注释。

1.2项目基本信息(1)样品信息:样品编号BMK编号亲本1 (父本) P亲本2 (母本) M混池1B1混池2B2注:BMK编号:百迈客对样品的统一编号,实验建库和后续信息分析均使用该编号。

混池规模:30+30;群体类型:F2群体;研究性状:水稻千粒重(2)参考基因组信息:根据水稻的基因组大小以及GC含量等信息,最终选取日本晴水稻基因组作为参考基因组。

具体信息如下所示:1. 测序物种信息:水稻(Oryza sativa),实际基因组大小为419.8 Mb,GC含量为45.67%;2. 参考物种信息:日本晴水稻(Oryza sativaindica)⑴基因组,组装出的基因组大小为374.3 Mb,GC含量为43.56%, ScaffoldN50为500Kb,,该基因组组装到染色体水平,有基因注释信息,版本号为v7.0,下载地址:http://rapdb.dna.affrc.go.jp/。

1.3项目执行情况(1) 样品信息到位时间为2016年XX月XX日。

(2) 样品检测合格时间为2016年XX月XX日。

(3) 项目启动时间为2016年XX月XX日。

⑷项目分析完成时间为2016年XX月XX日。

1.4项目结果概述(1) 数据质控测序共获得XXGbp数据量,过滤后得到的Clean Read为XXGbp , Q30达到80%, 平均每个样品测序深度X。

样品与参考基因组平均比对效率为XX%,平均覆盖深度为X,基因组覆盖度为XX% (至少一个碱基覆盖)。

(2) 变异检测SNP检测:样品P、M之间共获得XX个SNP,其中非同义突变的SNP共XX个;样品B1、B2之间共获得XX个SNP,弓I起非同义突变的SNP共XX个。

In Del检测:样品P、M之间共获得XX个Small I nDel;样品B1、B2之间共获得XX 个Small In Del。

(3) 关联分析:SNP-index关联算法,共得到XX个与性状相关的侯选区域,总长度为XXbp ; ED关联算法,共得到XX个与性状相关的侯选区域,总长度为XXbp,两种方法取交集得到XX个与性状相关的侯选区域,总长度为XXbp。

关联区域内包含非同义突变SNP位点的基因共XX个,同义突变SNP位点的基因共XX个。

2项目流程2.1实验流程实验流程按照lllumina 公司提供的标准protocol 执行,包括样品检测、文库构建、 文库质量检测和上机测序,具体流程如下R*g«n»rdle ClutLert diid Sitqu«fic* Piir*d> End实验流程图样品检测合格后,用超声破碎的方法将 DNA 随机打断成350bp 的片段,DNA 片 段经末端修复、3'端加A 、加测序接头、纯化、PCR 扩增完成测序文库的构建。

文库 经质检合格后通过Illumina HiSeq TM 4000进行测序。

2.2信息分析流程信息分析的内容包括:数据质控(去除接头和低质量数据)、与参考基因组比 对、变异检测与注释(SNP 、In Del )、关联分析、候选SNP 及候选基因的注释。

重测序BSA 生物信息分析具体流程如下图所示:♦片啟选挣和PCR 富年 文库纯化去接头污毀A2Genemle Cluslers重测序BSA生物信息分析流程图3生物信息学分析3.1测序数据质控3.1.1原始数据介绍高通量测序(如lllunima HiSeq 4000等测序平台)得到的原始图像数据文件,经 碱基识别(Base Calling )分析转化为原始测序序列(Sequeneed Reads ,我们称之 为Raw Data 或Raw Reads 结果以FASTQ (简称为fq )文件格式存储,其中包含测序 序列(Reads 的序列信息以及其对应的测序质量信息。

测序样品中真实数据随机截取结果如下:@HWI-7001455:110: C3B41ACXX:4:1101:1401:2163 1:N:0: TAAGGCCTCTCTCCTATCTTTCCAACCATCTGATAACACCGAACATCCATATTGAGCCCACACTTCTTGATGATCTTTCAATATTTTATGAT CCCFFFFFHHHHHJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJHHHHHHHFFFFFFFFEEEEEE FASTQ 格式文件中每个Read 由四行描述,其中第一行以 “ @开头,随后为 Mu mi na 测序识别符(Seque nee Ide ntifiers )和描述文字(选择性部分);第二行是 碱基序列;第三行以“ +”头,随后为Illumina 测序识别符(选择性部分);第四行 是对应序列的测序质量。

Illumina 测序识别符(Sequenee Identifier®详细信息见如下:Illumina 测序标识详细信息Unique instrument name Run ID C3B41ACXX Flowcell laneTile number within the flowcell lane 'x'-coordinate of the cluster within the tile 'y'-coordinate of the cluster within the tile Member of a pair, 1 or 2 (paired-end or mate-pair reads only)Y if the read fails filter (read is bad), N otherwise0 when none of the control bits are on, otherwise it is an even numberIndex sequence通过使用第四行中每个字符对应的 ASCII 值进行计算,即得到对应第二行碱基 的测序质量值。

如果测序错误率用e 表示,lllunima HiSeq 4000的碱基质量HWI-7001455110Flowcell ID110114012163 TAAGGC值用Qphred 表示,则有下列关系:Q phred = -10lOg10(e)Mun ima Casava 1.8版本测序错误率与测序质量值简明对应关系如下表所示:测序错误率测序质量值对应字符5%131%2050.1%30?0.01%40I碱基识别(Base Calling)分析软件:Illunima Casava 1.8版本测序参数:双端测序(Paired end, PE)测序序列读长:151bp3.1.2碱基测序质量分布每个碱基测序错误率是通过测序Phrec数值(Phred score, Qphred)得到,而Phrec数值是在碱基识别(Base Calling)过程通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示:Phred分值不正确的碱基识别碱基正确识别率101/1090%201/10099%301/100099.9%401/1000099.99%在Hiseq4000测序系统测序时,首先会对文库进行芯片制备,目的是将文库DNA 模板固定到芯片上,在固定DNA模板的过程中,每个DNA分子会形成一个簇,一个簇就是一个测序位点,在进行固定过程中极少量的簇与簇之间物理位置会发生重叠,在测序时,测序软件通过前4个碱基对这些重叠的点进行分析和识别,将这些重叠点位置分开,保证每个点测到的是一个DNA分子,因此测序序列5端前几个碱基的错误率相对较高。

相关主题