人类基因组单体型图细胞株中与遗传和基因表达变化有关的DNA甲基化模型摘要背景:DNA甲基化是参与基因调控和疾病的一种重要表观遗传学机制,但很少人知道在个体间甲基化机制存在差异。
在这,我们从77个图约鲁巴人的人类基因组单体中测量了22,290 CpG二核苷酸的淋巴母细胞系的甲基化水平,同时也使用了全基因组的基因表达和基因型数据。
结果:通过对超过三百万常见的单核苷酸多态性(SNP)位点的甲基化水平关联的分析,我们确定在173个基因的180个CpG双核苷酸位点与附近的单核苷酸多态性(独联体通常在5 KB内)的错误发现率为10%。
在迪斯科相互作用蛋白2的同源基因B(DIP2B,以前推测在DNA甲基化中发挥作用)中发现SNP rs10876043是最有趣的传输信号,全基因范围内的信号与第一组分的甲基化模式是有联系的。
而且我们发现在整体信号联系中只有少量的反式作用。
正如预期的那样,通过测量的RNA序列,我们发现基因的启动子甲基化和基因表达水平呈负相关关系。
最后,发现有一个显着的SNP位点重叠,均与甲基化与基因的表达水平有关。
结论:我们的研究结果显示在个体间的差异在DNA甲基化方面有很强的遗传成分。
此外,丰富的单核苷酸多态性会影响甲基化和基因表达,为共享机制的一小部分的基因提供了证据。
背景:D NA甲基化在真核生物的基因组起着重要的调节作用。
甲基化的改变可以影响转录和表型的变化[1],但DNA甲基化本身的变化根源,现在仍然知之甚少。
大量证据确实存在DNA甲基化的个体差异随着年龄的增长[2,3],组织[4,5],物种[6]。
在哺乳动物中,DNA甲基化是通过DNA甲基转移酶(转移酶)介导的,是在复制过程中负责重新甲基化和维持甲基化模式。
参与合成的甲基化和DNA去甲基化的基因也可以影响甲基化的变化。
例如,突变的甲基转移酶DNMT3L[7]和亚甲基四氢酸还原酶MTHFR[8]基因可导致人的血液中DNA低甲基化。
这些变化发生在全基因组水平,与遗传变异是不同的,而是有针对性的对基因组区域影响DNA甲基化变异,例如,在H19/IGF2位点的差异性甲基化与遗传多态性有关9]。
最近的证据表明,DNA甲基化的依赖所在基因的序列含量[10〜12]。
在对家庭与双胞胎甲基化模式的研究中发现有很强的遗传效应,但随机因素和环境因素也有可能发挥重要作用2,14]。
最近的工作表明,基因变异可能对所在的甲基化模式有重大影响[5,15-18],但影响甲基化的遗传变异是何种程度,机制尚不清楚。
此外,在DNA甲基化变化的基础上对个体基因表达影响到何种程度,仍然是未知之数。
DNA甲基化一直被认为是基因表达的一个关键调节器。
基因表达的遗传基础已经通过组织[19]和人口[20]进行了研究。
两条证据都表明与基因表达变化有关的遗传变异主要位于启动子转录起始位点附近。
然而,很少人知道遗传变异改变基因表达的确切的机制。
通过结合遗传特性、表观遗传学和基因表达数据,可以知道这些过程之间的基本关系,但这样的研究是在基因组范围内是罕见的。
最近的两项研究已经检测出人脑样品中DNA甲基化和基因表达之间的联系[5,18]。
这两项研究都发现每个表型都有相当数量的位点,但只有的少数几个位点有较强的基因甲基化和表达的变化。
为了更好地理解遗传变异在控制DNA甲基化的变化的作用,以及其对基因表达变化带来的影响,我们从人类基因组单体型图采集了77个人的淋巴母细胞系(LCLs)并研究了DNA启动子甲基化。
这些细胞系代表一种独特的资源,因为它们已经是人类基因组单体型图中密集的基因型21],并且正在基因组计划中测序。
另外,这些细胞系的基因表达和RNA测序[23,24]已经使用微矩阵研究了许多组,以及更小的变化研究染色质辅助功能和PolII的结合[25,26]。
最后,一个单体型图细胞株,现在正在紧张研究的ENCODE项目[27]。
这种融合来自同一个细胞株的全基因组数据的不同类型的遗传变异会影响基因调控的机制,最终实现更清晰的认识。
结果:DNA启动子甲基化模式的特征为了研究个体间变异的甲基化图谱,我们测量了77个图约鲁巴人的淋巴母细胞系(LCLs)的整个基因组甲基化水平,这些样本来自无关从人类基因组单体型语(YRI)收集的个人。
对于这些样品,我们也有可公开获得的基因型[21],以及估计的RNA测序的77个样本中的69个基因的表达水平[24]。
在重复使用的Illumina公司HumanMethylation27 DNA分析微珠的芯片的检测,这是基于对基因分型的bisulfiteconverted进行甲基化图谱个人的CpG-网站提供的定量测量DNA甲基化的基因组DNA。
TheIllumina阵列探测目标27,578 CpGsites。
然而,我们有限的探头,以绘制出独特的基因组中,并没有包含已知的序列变异分析,留给我们的一个数据集的22,290的13,236个基因的启动子区域的CpG位点(见方法)。
杂交后,甲基化水平估计作为比强度得到的信号从被甲基化了的甲基化和非甲基化的等位基因的信号强度的总和的等位基因。
继杂交,甲基化水平估计所得的甲基化的等位基因甲基化和unmethylated 等位基因强度信号的总和超过强度信号的比率。
甲基化水平通过两次复制被标准化确定分为点。
我们测试统计了潜在的混杂变量,可能会影响甲基化水平的淋巴瘤细胞白血病的相关性[29],如LCL细胞的生长率,Epstein-Barr病毒的拷贝数变异生物和其他措施(见附件1),60个人在我们的研究[30];这些变化没有显着解释在我们的样本中的甲基化水平(图S1在此1)。
然而,我们观察HapMap项目的影响的阶段(从阶段1/2和3的样品)中的常染色体显性遗传的数据的第一主成分载荷的分布,提示第一甲基化部分主要组件可能会捕捉技术变化,可能相关的LCL文化的。
然而,我们观察到HapMap 阶段(从第1/2 阶段vs 3 样本)对分布在常染色体显性遗传的数据中,第一次主成分荷载的的影响表明甲基化的第一个主要组件部分可捕捉潜在相关的拼箱文化的技术变化。
在下游的关联映射分析,我们采用了修正,采用主成分分析回归前三个主成分占不可测量的干扰因素,提高功率检测数量性状位点。
甲基化的总体模式位于常染色体,X染色体上,并在附近的印记基因(图1a)CpGsites不同的甲基化模式进行观察。
大部分(71.4%),常染色体显性遗传的CpG位点主要是未甲基化(观察到的甲基化比例<0.3),15.6%为半甲基化(分数的甲基化是在0.3和0.7之间),13%的甲基化。
正如预期的那样,这些模式与以前观察到的全基因组水平启动子附近低甲基化水平附是一致的[4,31]。
我们没有发现证据的性别特异性的常染色体显性遗传的甲基化模式,与以前的报告一致[4]。
与此相反,用CpG的网站的X染色体上具有高度显着的性别特异性差异(图S2)与半甲基化模式符合女性X-染色体失活。
类似的峰半甲基化的CpG位点附近的转录开始的网站(TSSS)已知的常染色体显性遗传印记基因在整个样本。
我们观察到一个先前报道[4]在位于1 kB的TSSS中(图1b)的CpG位点的甲基化水平下降。
已启动子甲基化水平的改变CpG岛[32]。
with respect to关于我们发现,虽然距离CpG岛(CGI)边界[33](包括CpG基海岸[34])没有显著影响甲基化水平,的CpG位点位于CGI的甲基化和变量(Wilcoxonrank和检验P <2.2×10-16)相比,外部网站的CGI程序(图1,图S3的其他文件1)。
甲基化通常是发现在1-2KB基因区域是有关的规模要跨越基因组区域相关[4,35]。
我们调查是否常染色体甲基化程度(共-甲基化)之间的相关性依赖于CpG的站点之间的距离。
我们观察到,在位于靠近探头的甲基化水平(2 KB)有高度相关性(图1c)内的细胞类型相关,这表明,个人之间的甲基化水平的变化。
我们观察到的甲基化级别为位于邻近的探测器(相距达2 kb) 高度相关的(图 1 c),指示该个人之间的甲基化水平的变化相关内单元格类型。
图1c还表明,对CpG的网站,均在一个CGI表现出更大的比对其中至少一个的CpG 位点以外的CGI,控制距离合作-甲基化的证据,这意味着DNA甲基化的CpG 岛的微分调节内部和外部的CGI程序[32]。
1 c 还显示两人都在CGI 内的中央人民政府网站对表明co-methylation 比对中央人民政府网站,至少一个是CGI 以外的更多证据的距离,暗示的DNA 甲基化Cpg 的内部和外部希捷[32] 差异调节控制。
DNA甲基化与转录,组蛋白修饰早已被牵连甲基化在基因表达的调控。
为了研究甲基化在基因表达变化的作用,我们比较了甲基化水平的估计基因表达的基础上RNAsequencing(图2a)。
在个人,我们发现了一个显着的负相关关系,甲基化和跨越11,657个基因的基因表达水平(图S4的其他文件1)(平均秩相关系数r =-0.454)。
我们分为四分位值从高至低基因表达的基因,并观察附近的甲基化水平的TSS下降(图1b),只出现在中高表达的基因(图2b)。
我们还问,是否在不同的个体的甲基化水平的变化与在基因表达水平的变化的相关性。
在基因水平上69个人之间的比较表明温和但显着过剩的负相关基因(排列P <0.0001)。
被认为是DNA甲基化与组蛋白修饰相互作用过程中基因表达的调节[36,37]。
我们在我们的样本中的甲基化水平比较与组蛋白修饰ChIP-seq测序的数据,从CEPH研究中心人类基因组单体型图的直线加速器相干光源(GM12878)的ENCODE编码项目。
我们发现DNA甲基化水平和活性基因(图1d,图S3和S5的其他文件1)的组蛋白标记的目标存在较强的负相关性。
例如,DNA甲基化是在H3K27ac峰,这是指示性的促进剂[38],以前被转录水平呈正相关[39]和DNA甲基化水平呈负相关[31]。
同样,转录标记H3K4me3和H3K9ac了:DNA甲基化水平呈负相关。
我们也观察到较低的甲基化水平的转录因子结合位点预测的CENTIPEDE算法,采用细胞类型的具体数据包括DNase1测序读[40],甲基化的情况下是非常重要的转录因子结合的期望相一致。
基因组关联的SNP基因型与DNA甲基化接下来,我们评估遗传变异是否有助于个体间变异DNA甲基化水平,我们首先测试是否有SNP位点与整体的DNA甲基化模式,测量通过主成分分析(见方法)。
最有趣的信号,获得的SNP rs10876043,其中有一个第一主成分的甲基化在基因组范围的重大变化与(P= 4.5×10-9),这也表明一个温和与平均的全基因组甲基化水平(P =4.0×10-5)(表S1中的其他文件1)。