当前位置:文档之家› 人全基因组甲基化测序项目结题报告

人全基因组甲基化测序项目结题报告

人全基因组甲基化测序项目结题报告成都生命基线科技有限公司目录一、分析方法 (3)1.1 全基因组甲基化测序 (3)1.2 生物信息分析概述 (3)1.3 数据过滤 (3)1.4 序列比对 (3)1.5 甲基化水平 (3)1.6 DMR检测 (4)1.7 甲基化水平程度差异 (4)1.8 GO注释 (4)1.9 KEGG通路富集 (4)二、项目流程 (5)2.1 实验流程 (5)2.2 信息分析流程 (5)三、项目结果报告 (6)3.1 数据基本处理与质控 (6)3.2 全基因组甲基化水平分析 (8)3.3 甲基化C碱基中CG, CHG 与CHH的分布比例 (9)3.4 甲基化CG、CHG和CHH的甲基化水平分布 (10)3.5 甲基化的CG,CHG,CHH附近碱基的序列特征分析 (10)3.6 染色体水平的甲基化C碱基密度分布 (11)3.7 基因组的不同区域的甲基化分布特征 (11)3.8 基因组不同转录元件中的DNA平均甲基化水平 (12)3.9 DMR的检测 (12)3.10 DMR相关基因的GO和Pathway分析 (14)四、参考文献 (15)一、分析方法1.1 全基因组甲基化测序首先采用Covaris聚焦超声仪对合格的DNA样品进行打断。

加入End Repair Mix置于20℃ 30分钟进行末端修复后,用QIA quick PCR Purification Kit(Qiagen)纯化DNA片段。

使用A-Tailing Mix置于37℃ 30分钟在3’末端加A碱基,然后在DNA片段两端连接上测序接头。

采用EZ DNA Methylation-Gold kit(ZYMO)进行Bisulfite处理,使用2%琼脂糖凝胶进行片段选择,并使用QIA quick Gel Extraction kit (QIAGEN)回收目标片段。

最后使用Agilent 2100 Bioanaylzer和ABI StepOnePlus Real-Time PCR System对样品文库进行质控与定量。

合格文库采用Illumina平台进行测序。

1.2 生物信息分析概述得到下机数据后,首先进行数据过滤,去掉低质量数据,得到可用数据。

完成数据过滤后,需检测可用数据量是否符合合同要求。

检测合格后,将可用数据与参考基因组进行比对,得到比对结果。

在确认比对质量合格后,使用唯一比对数据计算得到全基因组C碱基甲基化信息,进行信息分析处理,得到标准信息分析结果和个性化分析结果。

1.3 数据过滤数据过滤包括去、污染以及低质量序列。

数据过滤分析使用华自主的分析软件,低质量的reads包括以下两类,符合任意一条的都会被剔除:1) N > 10%;2) 质量值小于20的碱基>10%。

完成过滤后的reads称为clean reads,这些数据存储为FASTQ格式(参见帮助页中的FASTQ格式)。

1.4 序列比对过滤完成后,clean data与参考基因组进行比对(BSMAP),并计算每个样品的比对率和bisulfite转化率等统计信息。

1.5 甲基化水平甲基化水平是支持甲基化的reads数占所有覆盖该位点的reads数的比例[3]。

计算公式如下:Nm为改为点是甲基化C的reads数,Nnm为该位点是非甲基化C的reads数。

1.6 DMR检测在两个样品基因组相同位置上寻找包含至少5个CG(CHG或CHH)的窗口,比较该窗口在两个样品数据中CG甲基化水平的差异,寻找在两个样品中甲基化有显著差异(2倍差异,且fisher检验P value <= 0.05)的区域即为DMR。

如果两个相邻的DMR形成的连续区域在两个样品中甲基化水平有明显差异,则这两个DMR将被合并为一个连续的DMR,否则为两个独立的DMR。

1.7 甲基化水平程度差异我们用CIRCOS比较样品间DMR的甲基化水平差异来计算两个样品之间甲基化程度的差异,两样品间某位点的甲基化水平的差异程度可以用下面的公式来计算:Rm1、Rm2分别代表样品1和样品2的mC的甲基化水平。

如果Rm1或Rm2的值为0则用0.001代替[8]。

1.8 GO注释GO(Gene Ontology,基因本体论)数据库是目前对基因功能分析的一个重要工具,GO 富集分析提供所有在DMR相关基因中有明显富集的GO term,并过滤特定生物学功能的DMR相关基因。

这个方法主要是基于GO TermFinder (/help/analyze/go-term-finder),首先将DMR相关基因比对到GO term的数据库中(/),计算每个term的基因数量,然后应用超几何检验,找出与整个基因组背景相比,在DMR相关基因中显著性富集的GO term。

我们研发了十分严格的分析方法,主要计算方法如下:N为GO注释的所有基因数,n为所有基因中与DMR相关的基因数,M为注释的某特定GO term的所有基因数,m是该特定GO term中与DMR相关的基因数。

算出的p值通过Bonferroni检验,阈值设定为p≤0.05。

满足这些条件的GO term则为显著富集。

该分析可以识别DMR相关基因行使的主要的生物学功能。

1.9 KEGG通路富集在生物体内,由于不同基因通过翻译、表达、调控、相互协调使其发挥特定的生物学功能,基于Pathway 的分析有助于更进一步了解某些基因所参与的代谢通路。

KEGG[9]是有关Pathway的主要公共数据库,Pathway显著性富集分析以KEGG Pathway为单位找出与整个基因组背景相比在DMR相关基因中显著性富集的Pathway。

主要的计算方法与GO分析相同。

二、项目流程2.1 实验流程实验过程的每个步骤(如样品制备,文库构建以及测序过程)都会影响数据质量,从而影响后续信息分析结果。

为了得到高质量测序数据,我们对实验过程的每个步骤都进行严格的质控。

建库主要步骤如下:1 DNA样品提取及检测:提取DNA,检测DNA样品的完整性、纯度和浓度等;2 文库构建:基因组DNA用Bioruptor (Diagenode, Belgium) 打断成平均大小为 250 bp的片段,DNA片段末端修复、3’端加A碱基,连接甲基化接头,采用EZ DNA Methylation-Gold kit(ZYMO)进行Bisulfite处理,2%的琼脂糖凝胶电泳,片段选择,用QIAquick Gel Extraction kit (Qiagen)回收DNA片段,PCR扩增完成文库构建;3 上机测序:质控合格的文库进行上机测序。

2.2 信息分析流程得到原始测序数据后,我们将进行相关信息分析。

人全基因组甲基化信息分析流程图三、项目结果报告3.1 数据基本处理与质控在项目中,我们对两个人的样品进行了WGBS测序,平均每个样品产出Gb原始reads,将下机数据进行过滤,包括去污染,去测序接头和低质量碱基比例过高的reads,得到clean data。

表1中列出了数据产出的概况。

图1显示的是测序碱基含量分布,图2显示的是碱基测序质量分布情况。

表1各样品测序数据量统计Clean Rate (%) = Clean Data Size (bp)/Raw Data Size (bp)图1 Clean reads的碱基含量分布图。

横坐标表示碱基在reads上的位置,纵坐标表示碱基比例,如果图中碱基分布不平衡则说明测序过程有异常情况发生。

右侧框中为样品名称,相同的样品名称出现多次是因为该样品数据来源于多个测序lane。

图 2 Clean reads碱基质量分布图。

横坐标为reads上碱基位置;纵坐标为碱基测序质量。

图中每个点表示reads中相应位置碱基的测序质量。

如果低质量碱基(Q<20)的比例过多,则测序质量较差。

相同的样品名称出现多次是因为该样品数据来源于多个测序lane。

在得到clean data之后,使用比对软件BSMAP[1]将reads比对到参考基因组上,比对结果如表2所示;之后根据需要对各个文库的reads进行去duplication处理;然后进行质控(表5)来判断测序数据质量是否达标。

参考基因组:hg19 (请按照测序物种选取相应的参考基因组,此项目以基因组hg19为参考基因组。

)表2比对结果统计Bisulfite conversion rate = 1 - methylation rate of control DNA下图为各样品的测序深度分布图,理论上,其最高点对应的测序深度与全基因组平均覆盖深度一致或接近,这个分布图可以用于反映测序是否均匀。

图3 测序深度分布。

X轴为测序深度,Y轴为该测序深度所占百分比。

根据胞嘧啶(C)序列特征可以将其分为三种类型CG, CHG和CHH(H代表A或T或C碱基)[2]。

下述图表中反映了不同C碱基类型有效测序深度的累积分布(基于有效数据计算)。

图4 C碱基测序深度的累积分布图。

横轴(x轴)表示测序深度,纵轴(y轴)表示基因组中测序深度不小于该测序深度的C碱基占全基因组全部C碱基的比例。

表3样品HCT116在全基因组及各类型调控元件范围内的覆盖度表4样品DKO在全基因组及各类型调控元件范围内的覆盖度表5各样品QC质控表3.2 全基因组甲基化水平分析用于分析的DNA样品为多细胞样品,因此C碱基的甲基化水平是一个0% ~100%范围内的数值,等于该C碱基上覆盖到的支持mC的序列数除以有效覆盖的序列总数,(详细算法请参考方法部分).通常CG甲基化存在于基因和重复序列中,在基因表达调控过程中起到非常重要的作用[3][4]。

非CG类型的序列(CHG和CHH)在基因中十分少见,主要存在于基因间区和富含重复序列的区域,在沉默转座子过程中起关键作用[2]。

表6样品HCT116全基因组及各类型调控元件范围内的甲基化水平表7样品DKO全基因组及各类型调控元件范围内的甲基化水平3.3 甲基化C碱基中CG, CHG 与CHH的分布比例mCG,mCHG和mCHH三种碱基类型的构成比例在不同物种中,甚至在同一物种不同样品中都存在很大差异。

因此,不同时间、空间、生理条件下的样品会表现出不同的甲基化图谱,各类型mC ( mCG、mCHG和mCHH ) 的数目,及其在全部mC的位点中所占的比例,在一定程度上反映了特定物种的全基因组甲基化图谱的特征。

mCG、mCHG和mCHH 分别表示表示甲基化CG、甲基化CHG和甲基化CHH。

三种碱基类型占比总和为100%,甲基化C鉴定方法依据Lister的文章描述进行[3]。

表8样品HCT116中mCG、mCHG和mCHH三种类型甲基化胞嘧啶的比例表9样品DKO中mCG、mCHG和mCHH三种类型甲基化胞嘧啶的分布图5不同序列类型甲基化C碱基的分布比例。

相关主题