生物信息学填空,选择,计算,简答,名词解释几代测序的代表平台,优缺点一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP 和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA 序列第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid 技术为标记的第二代测序技术诞生了(1)DNA待测文库构建利用超声波把待测的DNA样本打断成小片段,目前除了组装之外和一些其他的特殊要求之外,主要是打断成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库。
(2)FlowcellFlowcell是用于吸附流动DNA片段的槽道,当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的channel上。
每个Flowcell有8个channel,每个channel的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对(这就是为什么flowcell 能吸附建库后的DNA的原因),并能支持DNA在其表面进行桥式PCR的扩增。
(3)桥式PCR扩增与变性桥式PCR以Flowcell表面所固定的接头为模板,进行桥形扩增,如图4.a 所示。
经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。
(4)测序测序方法采用边合成边测序的方法。
向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。
这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP。
在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。
接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。
这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团,以便能进行下一轮的测序反应。
Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。
第二代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术,被称之为第三代测序技术。
其中PacBio SMRT技术其实也应用了边合成边测序的思想5,并以SMRT芯片为测序载体。
基本原理是:DNA聚合酶和模板结合,4色荧光标记4 种碱基(即是dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。
同时这个DNA 聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。
PacBio SMRT技术的一个关键是怎样将反应信号与周围游离碱基的强大荧光背景区别出来。
他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的很多密集小孔。
小孔直径有考究,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板而泄露出来,从而与周围小孔相互干扰。
如果孔径小于波长,能量不会辐射到周围,而是保持直线状态(光衍射的原理),从而可起保护作用。
同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔, 即ZMW(零模波导孔),外径100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不能穿透小孔进入上方溶液区,能量被限制在一个小范围(体积20X 10-21 L)里,正好足够覆盖需要检测的部分,使得信号仅来自这个小反应区域,孔外过多游离核苷酸单体依然留在黑暗中,从而实现将背景降到最低。
另外,可以通过检测相邻两个碱基之间的测序时间,来检测一些碱基修饰情况,既如果碱基存在修饰,则通过聚合酶时的速度会减慢,相邻两峰之间的距离增大,可以通过这个来之间检测甲基化等信息(图7)。
SMRT 技术的测序速度很快,每秒约10个dNTP。
但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,但好在它的出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而可以通过多次测序来进行有效的纠错。
与前两代相比,他们最大的特点就是单分子测序,测序过程无需进行PCR扩增。
法第一代ABI/生命技术公司3130xL-3730xL 桑格-毛细管电泳测序法荧光/光学600-1000高读长,准确度一次性达标率高,能很好处理重复序列和多聚序列通量低;样品制备成本高,使之难以做大量的平行测序第一代贝克曼GeXP遗传分析系统桑格-毛细管电泳测序法荧光/光学600-1000高读长,准确度一次性达标率高,能很好处理重复序列和多聚序列;易小型化通量低;单个样品的制备成本相对较高第二代Roche/454 基因组测序仪FLX系统焦磷酸测序法光学230-400在第二代中最高读长;比第一代的测序通量大样品制备较难;难于处理重复和同种碱基多聚区域;试剂冲洗带来错误累积;仪器昂贵第二代Illumina HiSeq2000,HiSeq2500/MiSeq 可逆链终止物和合成测序法荧光/光学2x150 很高测序通量仪器昂贵;用于数据删节和分析的费用很高第二代ABI/Solid 5500xlSolid系统连接测序法荧光/光学25-35 很高测序通量;在广为接受的几种第二代平台中,所要拼接出人类基因组的试剂成本最低测序运行时间长;读长短,造成成本高,数据分析困难和基因组拼接困难;仪器昂贵第二代赫利克斯Heliscope 单分子合成测序法荧光/光学25-30 高通量;在第二代中属于单分子性质的测序技术读长短,推高了测序成本,降低了基因组拼接的质量;仪器非常昂贵第三代太平洋生物科学公司PacBio RS 实时单分子DNA测序荧光/光学~1000 高平均读长,比第一代的测序并不能高效地将DNA聚合酶加到测序阵列中;准确性一时间降低;不需要扩增;最长单个读长接近3000碱基次性达标的机会低(81-83%);DNA 聚合酶在阵列中降解;总体上每个碱基测序成本高(仪器昂贵);第三代全基因组学公司GeXP遗传分析系统复合探针锚杂交和连接技术荧光/光学10 在第三代中通量最高;在所有测序技术中,用于拼接一个人基因组的试剂成本最低;每个测序步骤独立,使错误的累积变得最低低读长;模板制备妨碍长重复序列区域测序;样品制备费事;尚无商业化供应的仪器第三代IonTorrent/生命技术公司个人基因组测序仪(PGM)合成测序法以离子敏100-200对核酸碱基的掺入一步步的洗脱过程可导致错误累积;阅感场效应晶体管检测pH 值变化可直接测定;在自然条件下进行DNA合成(不需要使用修饰过的碱基)读高重复和同种多聚序列时有潜在困难;第三代牛津纳米孔公司gridION 纳米孔外切酶测序电流尚未定量有潜力达到高读长;可以成本生产纳米孔;无需荧光标记或光学手段切断的核苷酸可能被读错方向;难于生产出带多重平行孔的装置LAMP架构Linux+Apache+Mysql/MariaDB+Perl/PHP/Python一组常用来搭建动态网站或者服务器的开源软件,本身都是各自独立的程序,但是因为常被放在一起使用,拥有了越来越高的兼容度,共同组成了一个强大的Web应用程序平台。
序列比对,重中之重,肯定会有计算题,全局比对,局部比对Sequence A: CAATTGA Sequence B: GAATCTGC Their optimal alignment生物信息相关的重要数据库:序列数据库,结构数据库等,送几分多序列比对,SP模型,线性比对目的:发现多个序列的共性发现与结构和功能相关的保守序列片段设:有k个序列s1, s2, ... ,sk,每个序列由同一个字母表中的字符组成,k大于2。
通过插入操作,使得各序列达到一样的长度。
意义:用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。
用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。
其他应用,如构建profile,打分矩阵等。
1、SP(Sum-of-Pairs)模型逐对加和SP(sum-of-pairs)函数1、计算多序列比对的SP模型得分,打分矩阵用课本中的PAM250矩阵,P(-,-)=0, 任意氨基酸与–得分为-1。
2、计算AACTCAT, CCATAAT,GTAACAT, GACCACT 4条序列的PSSM(计算步骤参见课本P63)基因组组装,主要复杂在几个问题上,正反向都有等,贪婪算法和拓扑排序等基因组组装存在的主要问题:碱基错误片段的方向未知存在重复区域缺少覆盖用贪婪法和非循环子图拓扑排序方法实现课件中几条序列的组装。
贪婪算法简化覆盖多图,对每一对顶点仅考虑权值最大的边,而去掉其它的边。
称经过处理后的新图为F的覆盖图,记为OG(F)。
贪婪算法的核心思想就是逐步加入满足哈密顿路径条件的最大权值的边无回路节点出度为1(不可能有两条边同时从某个顶点出发)节点入度为1 (不可能有两条边同时终止于某个顶点)例如,设序列片段集合F={CA,ATCA,TGCAT},其覆盖图如图3.28实线所示,这里去掉了权值为0的边。
依次取两条权值为2的边,形成一条哈密顿路径。
贪婪算法并不能保证总是产生出最佳的结果。
如果将F第一个序列改为CATCA,则在原来的图中将加上虚线所示的边。
按照贪婪算法,首先选择权值为3的虚线边,然而这样一来,其它两条权值为2的边都不能再选了,因为将它们加入后不满足哈密顿路径的条件。
于是,算法只能选择权值为0的边,以建立完整的哈密顿路径,总的权值为3。
可是,上述另外两条被拒绝的边形成一条哈密顿路径,并且权值和等于4,是权值最高的一条哈密顿路径,但贪婪算法找不到该路径。