论文写作课期末作业综述题目:ChIP-chip与ChIP-seq数据处理方法与分析平台姓名: 孙翰菲学号:1132995第一章生物学背景知识1.1基因表达的调控从DNA到蛋白质,需要经过若干步骤。
对于真核生物来说,基因表达的调控是多级的,主要发生在4个彼此相互独立的水平上:转录水平的调控,加工水平的调控,翻译水平的调控,翻译后水平的调控。
而转录水平的基因表达调控,是其中最重要的调控机制。
1.2转录因子与组蛋白修饰转录因子(transcription factor)是一种特异识别某些DNA序列与之结合的蛋白质。
调控DNA通过生成转录因子来对靶DNA序列(目标DNA)进行转录水平的调控,促进或者抑制这些基因的转录。
这个机制是非常复杂的,这是由于真核生活的转录因子种类繁多,加上转录因子之间的相互作用造成的。
真核生物转录因子调节基因转录的一种重要机制,就是调节染色质的结构,以影响转录因子对启动子(promoter)的结合能力。
转录因子能调节组蛋白──染色质的一种成分──核心的结构,或称使组蛋白修饰发生改变,从而改变核小体和染色质的紧密程度,影响转录因子和RNA聚合酶(P ol II)对启动子的结合,调控基因的表达。
转录因子从功能上可分为通用转录因子(general transcription factors)与特异转录因子(specific transcription factors)。
通用转录因子与结合RNA聚合酶的核心启动子(promoter)位点结合,而特异转录因子与特异基因的各种调控位点结合,促进或阻遏这些基因的转录,目前已发现转录因子之间常常具有协同作用的能力。
具有完整的启动子的大部分DNA都可以起始基础水平的转录,这种基础水平的调控,导致转录水平的上升(受激活因子作用)或下降(受抑制因子的作用)。
一般情况下,真核生物的基因转录还需要其他蛋白因子的参与,以帮助通用转录因子和RNA聚合酶在染色质上组装。
这些辅助转录因子在DNA上的正调控元件,称为增强子(enhancer),因为它们的存在能够明显加强目的基因的转录,增强子似乎没有方向性,无论在在启动子上游还是下游,都不影响其增强基因转录的功能。
另外还有一种负调控元件,称作沉默子(silencer),与增强子作用相反。
真核生物的转录因子调节基因转录的一种重要机制,就是调整染色质的结构,以影响通用转录因子对启动子的结合能力。
真核生物的遗传物质是以染色质而不是裸露DNA的形式存在与细胞核中。
而染色体的基本结构单位是核小体,由组蛋白核心(组蛋白八聚体)和包裹在其上长约147bp的DNA 构成。
如果基因的启动子位于核小体中,组蛋白核心会阻碍通用转录因子在启动子上的组装以及Pol II与启动子的结合,使得基因转录难以进行。
组成核小体的组蛋白的核心部分状态大致是均一的, 游离在外的N-端则可以受到各种各样的修饰, 包括组蛋白末端的乙酰化, 甲基化[1], 磷酸化, 泛素化,ADP核糖基化等等,这些修饰的意义是改变染色质的结构,直接影响转录活性,或者使核小体表面发生改变,使其他转录因子易于和染色质相互接触,间接影响转录活性。
组蛋白修饰与转录因子关系密切:不仅组蛋白修饰能影响本区域对其他转录因子的易结合性,转录因子的结合也能引起组蛋白修饰的变化。
由于染色质结构紧密的地方,通用转录因子与Pol II难以结合启动子区域,从而导致此处的基因的转录活性降低;所以那些具有激活作用的转录因子,通常会有利于导致染色质或组蛋白结构松散的蛋白质发挥作用,如组蛋白乙酰化酶。
而起抑制作用的转录因子,则通常会加强那些促进染色质结构紧密的蛋白质的作用,如组蛋白去乙酰化酶。
1.3 顺式作用元件与反式作用因子顺式作用元件(cis-acting element),或称顺式元件子,是存在于基因旁侧序列中能影响基因表达的序列。
顺式作用元件包括启动子、增强子、沉默子等,它们的作用是参与基因表达的调控。
顺式作用元件本身不编码蛋白质,其作用是提供一个结合位点,反式作用因子通过结合在该位点上来改变结合处的特性,进而调控受此顺式作用元件影响的基因。
调控方式包括对基因转录可变剪切的调控、转录起始位点的调控以及转录效率的调控。
反式作用因子(trans-acting factor)则是指通过直接结合或间接作用于DNA、RNA等核酸分子,对基因表达发挥不同调节作用(激活或抑制)的各类蛋白质,其本身对基因表达没有调控作用,只是阻断来自上、下游的调控效应。
反式作用因子主要指能结合在基因序列上的特异性蛋白质──转录因子,然而随着表观遗传学的发展,研究发现除了蛋白,某些DNA,RNA片断也具有类似的调控功能,因此现在把它们算作反式作用因子[2]。
如图1-1所示,为转录因子调控基因通路的两种方式:直接调控(图1-1 a)与间接调控(图1-1 b)。
直接调控就是作为反式作用因子的转录因子(蓝色球形)结合在基因的顺式作用元件区域(如启动子区域),调控该基因的表达,进而影响该基因生成的蛋白质X的量。
而在间接调控中,影响蛋白质X的生成量的转录因子不结合在生成蛋白质X的基因附近,而是结合在远离该区域的生成蛋白质Y的顺式作用元件区域,而蛋白质Y又是一种能直接调控蛋白质X生成量的转录因子,通过这种方式,该转录因子间接地调控了蛋白质X的生成量。
图1-1 转录因子的两种调控模式(图片来源:Nature Reviews)1.4基因芯片技术与测序技术20 世纪90年代建立起来的DNA芯片技术和最近发展起来的第二代DNA 测序技术是高通量研究基因的结构和功能的两种比较重要的技术, 推动了功能基因组和系统生物学研究的发展.DNA芯片技术(DNA chip)是应用面积为2.0cm2或更小的晶片,在上面高密度的排列着许多寡核苷酸,待测的DNA中加入荧光标记物,点到芯片表面,发出荧光信号的位置表明寡核苷酸与待测DNA发生杂交。
荧光信号的位置与强弱经过转换,变为数据,用于进一步的分析[3]。
相比较于DNA芯片技术,测序技术可以发现更多未知的信息,但是成本更高。
高通量测序技术(High throughput sequencing),又称下一代测序技术,是对传统测序的一项重大改进,在一次实验中,可以读取1G到14G的碱基数,其中蕴藏着丰富的信息[4]。
图1-2 Illumina测序仪数据量的增加(图片来源:Illumina网站)随着数据量的大幅增长,如何处理这些海量数据就成了摆在研究者面前的挑战,而生物信息学和统计学是在处理DNA芯片与测序技术产生的海量数据中必不可少的工具[4]。
1.5 ChIP、ChIP-chip与ChIP-seq技术ChIP(Chromatin immunoprecipitation, 染色质免疫共沉淀)一种用主要于检测蛋白质(包括转录因子,组蛋白)与DNA结合位置的技术。
基本原理是在活细胞状态下通过处理,将蛋白质与DNA 交联在一起,形成复合体,然后通过超声波将其随机切断为0.2-1.0 kb 的染色质小片段,继而通过特异的抗体免疫沉淀此复合体,将DNA 片断的纯化与检测,从而获得受该蛋白质与DNA 相互作用的信息。
它能真实、完整地反映结合在DNA 序列上的调控蛋白,是目前确定与特定蛋白结合的基因组区域或确定与特定基因组区域结合的蛋白质的一种很好的方法[5]。
过去ChIP实验的结果主要采用对PCR(聚合酶链式反应)扩增产物进行电泳分析的方法,这种方法只能观测特定的几个目标基因。
而ChIP-chip和ChIP-seq技术的出现则使得在全基因组上观测蛋白质与DNA结合成为可能。
ChIP与DNA 芯片(chip)相结合,称作ChIP-chip(工作原理见图1-3)。
同样,ChIP 与高通量测序的整合,则被称作ChIP-seq(工作流程见图1-4)。
这两项技术可在全基因组内确定特定蛋白质的DNA 结合位点,从面为全基因组范围内研究目的蛋白的调控作用(顺式调控组)提供有效的方法[6][7]。
图1-3 ChIP-chip实验原理图(图片来源:Nature Reviews)相对于成本较低的ChIP-chip而言,ChIP-seq有如下优势;第一,ChIP-Seq能实现真正的全基因组分析。
而目前的芯片上固定的探针只能代表全基因组部分序列,所获得的杂交信息具有偏向性;第二,对于结合位点分析,ChIP-Seq通过寻找“峰”,结合分辨率可精确到10-30 bp,而芯片上探针由于长度所限,无法精确定位,即使目前最高水平的商业芯片的分辨率也无法比肩ChIP-Seq;第三,是所需样本数量。
ChIP-chip 需要多达4-5 µ g 的起始样本,在杂交之前需要进行LM-PCR,但可能导致背景增高,竞争性扩增等导致假阳性。
而ChIP-Seq仅需要纳克级起始材料,如SOLiD起始材料可低至20ng。
ChIP-seq数据由于测序工艺的缺陷,会有高GC含量区域读段数比实际值偏高的问题。
但是近两年来,随着测序成本的降低以及研究者对数据质量要求的提高,ChIP-seq数据有明显的增长趋势。
综上所述,虽然ChIP-chip实验成本低廉,而且也已经得到较广泛的应用,但是出于数据质量的考虑以及目前ChIP-seq有逐步取代ChIP-chip技术的趋势,本文分析流程中以讨论分析使用Chip-seq技术产生的数据为主。
图1-4 ChIP-seq技术工作流程图1.6本综述的目的和意义ChIP-chip 和ChIP-seq实验技术广泛应用于研究组蛋白修饰、特定转录因子在基因组范围内的顺式调控作用。
在全基因组范围内,弄清蛋白质与DNA的相互作用,进而研究其如何调控基因表达,对于我们探讨各种生物过程和疾病状态是非常重要的。
而将大量的蛋白-DNA相互作用信息进行整合,则是建立整个细胞内的基因表达调控网络,以及进一步阐明信号通路与生物分子功能的基础之上。
在基因组层次上如何分析、整合及阐释高通量数据已成为表观遗传组学中顺式作用元件研究的瓶颈。
本论文的目的在于构建顺式作用元件的综合分析系统,建立ChIP-seq数据质量控制的标准化流程,开发并维护一些对于不同顺式作用元件进行分析的生物信息学工具,以用于研究转录因子与组蛋白修饰之间的相互作用及其在基因转录调控网络中的协同功能。
第二章 ChIP-chip与ChIP-seq数据分析面临的挑战2.1实验数据分析的软件层面上的挑战在过去的数十年里,技术的提升使得研究者得以将过去只能在几个特定基因上完成的实验扩展到全基因组的规模上,这同时也带来了一些挑战。
随着生物芯片技术,测序技术工艺的提高与成本的降低,自2000 年来,癌症相关的ChIP-chip 和ChIP-seq数据越来越多。
同时,公有领域上的(Public Domain)各生物学数据库在不断完善,新的处理ChIP-seq数据的算法和分析ChIP-seq数据的方法论也在不断涌现[8]。