当前位置:
文档之家› 转录组Denovo手册(无答案)
转录组Denovo手册(无答案)
对于初级分析的项目,只需要给合作伙伴提供过滤后的数据即可,所以会对过滤后的数 据做dt1h LReenagdt2h
N3Z5123 FUNzPTEARAA 503060871000;536871 5725.71;52. 99.9971;99. 75 75
确定的?我们所说的插入片段长度是指 括了 read1 和 read2 本身的长度?
read1
和
read2
之间没有测到的那一段的长度还是包
1112..什解么释是Soilnedxeax测测序序中,几进个行关in键de的x技测术序:的边主合要成目边的测是序什(么S?BS),可逆阻断技术和桥式 。 PCR
2.信息分析流程:
软件(Conesa, A., S. Gotz, et al. (2005). "Blast2GO: a universal tool for annotation, visualization 得到 的 and analysis in functional genomics research." Bioinformatics 21(18): 3674-6.) Unigene
Unigene
相似根性的据蛋KE白G,G从注而释得信到息该我U们n能ige进ne一的步蛋得白到功U能ni注ge释ne信的息P。athway 注释。
统计我,如们将下图Un所ig示en:e 和 COG 数据库进行比对,预测 Unigene 可能的功能并对其做功能分类
根据nr注释信息我们能得到GO功能注释。我们根据nr注释信息,使用 ( ) Blast2GO 2.3.5
本节问题: 1.Q20 是什么意思? 2.BMS 系统上给出的 Q20%值是如何计算出来的? 3.转录组暂时执行数据质量标准是怎样的?你有什么更好的建议(拿出自己的测试数据)? 4.在统计数据信息时,read1 和 read2 长度相等吗? 5.read每个碱基测序错误率的分布如何?read测序长度增加有什么好处?为什么SOAP比对 的时候允许 3’端有更多的错配? 6.如何根据 BMS 上的碱基频率分布图查找建库或测序失败的问题?
G得O到注每释个信U息nig。enBela的st2GGOO注已释被后其,我它们文用献引W用EG超O过软1件50(
次,是同行广泛认可的 Ye, J., L. Fang, et al.
G(2O00注6)释. 软"W件EG。O:
a web tool for plotting GO annotations." Nucleic Acids Res 34(Web Server issue):
2.3 功能注释
原理: 首 先 , 通 过 ( ) 将 blastx blast-2.2.18 Unigene 序 列 比 对 到 蛋 白 数 据 库
Swiss-Prot(ftp:///pub/databases/uniprot_datafiles_by_format/fasta/),
11..3 本 在建节库问过题程:中,我们是先对RNA进行片段化后合成cDNA还是先用RNA合成cDNA再对cDNA
进行片段化?为什么要这样做?
2. 3.
相名对词于解生释:物芯插片入,片华段大的测序有什么优势?
4. 5.
f名as词tq解文释件:中Praeiar-desn的d r格ea式ds是怎样的?
W293-7.)对所有 Unigene 做 GO 功能分类统计,从宏观上认识该物种的基因功能分布特征。
如下图所示:
本节问题: 1.用 blast 比对时,blast 格式的选择和 evalue 阈值的设定是怎样的? 2.为什么我们会去掉较短的组装序列,选用大于 200 的序列比对? 3.如何降低比对所用时间? 4.在 COG 图中,请问每个分类的参考数据库是什么? 5.介绍一下我们比对用的四大数据库。 67..Gbleanste和Onbtolalto这gy(两简个称比对GO软)件的有含何义区?别,各自的特点是什么? 98..流从程Nr中库对的b注las释t 比结对果得中到得的到mG0O格分式类的结结果果是是怎如样何一处个理过得程到,最用终到表了格哪格些式软的件结工果具文?件的? 10.何做选bl择astb比las对t 的的建第库一类步型工?作是工作是什么?blast能够实现哪几种可能的序列比对方式?如
3. A该da参pt数er属c于on建ta库mi问na题ti,ona%dap(t记er为污Ad染a影pte响r实%)际产量。 4. Q20% (高于 80%)
该参数反映总体质量情况,de novo 项目 Q20 都应高于 80%,如果低于 70%则会严重影 响组装。质量非常差的数据,加进去会使组装效果变得更差。 5.GC%:
转录组 De novo 流程工作手册 1.De novo 流程生物学原理
1.1 实验流程
提取样品总 RNA 后,用带有 Oligo(dT)的磁珠富集真核生物 mRNA(若为原核生 物,则用试剂盒去除 rRNA 后进入下一步)。加入 fragmentaion buffer 将 打断 mRNA 成链短,片然段后,加以入缓mR冲N液A、为d模N板TP,s、用R六N碱as基e H随机和引D物N(A rpaonldyommerhaesexaIm合er成s)第合二成条第一cD条NAcD链N,A 在接经测过序接Qi头aQ,ui然ck后P用CR琼试脂剂糖盒凝纯胶化电并泳加进行EB片缓段冲大液小洗选脱择之,后最做后末进端行修P复C、测序。 11..2R测aw序c质 lus控ters (16 万~18 万) 对于 De novo 测序,质量胜过产量,小片段(200-500bp)宜上 18 万尽量缩小波动范围, 如果超过 20 万或者低于 15 万,则会影响质量和产量(Q20%,GC%),cluster 密度越高,数据 产量越大,但相邻 cluster 之间的荧光信号易相互干扰,影响数据质量;反之,cluster 密 度越低,相邻 cluster 的荧光信号越容易识别,但数据产量也较低。 2. Basecall duplicate% 该参数属于 solexa-pipeline 自身问题,只影响实际产量。
Gene Indices clustering tools (TGICL): a software system for fast clustering of large EST
冗dat余aseUtns.i"gBeinoei。nf最orm后a,tic将s 1U9n(i5g):e6n5e1序-2列.)与做蛋进白一数步据序库列n拼r、接S和wi去ss冗-P余ro处t、理KE,GG得和到尽COG可做能b长la的s非tx
2原.1理数:据过滤: 测序得到的 reads,并不都是有效的,里面含有带接头的,重复的,测序质量很低的 , reads
数这据些处re理ads的会步影骤响:组装和后续分析,我们必须对下机的 reads 过滤,得到有效 reads. 1 去除含 adaptor 的 reads 2 去除 N 的比例大于 10%的 reads 3 去除低质量 reads(质量值 Q <= 5 的碱基数占整个 read 的 50%以上) 4 获得 Clean reads,后续分析都基于 Clean reads
由于 De novo 项目的 GC%在最开始一般不知道,所以要采取更加灵活的处理方式,而不 是值设和定标死准板差,的以标及准,每如个误l差an在e 的+-%GC为%离合差格,,现来在反一映般总是体3变5-化65情%。况可。以如通果过r计aw算c所lu有stelran浓e 平度上均 的过高或者试剂出现问题,会导致 GC%在 reads 尾部分叉,严重时需要截去 reads 尾部一段 长度的序列。 6.Insert size:
比间对的(比对ev结al果ue<有0矛.0盾00,01则),按取n比r、对S结wi果ss最-P好ro的t、蛋K白EG确G 定和 UCnOGig的en优e 先的级序确列定方向Un。ig如en果e 的不同序库列之方 向,跟以上四个库皆比不上的 Unigene 我们用软件 ESTScan(Iseli, Jongeneel et al. 1999) 预测其编码区并确定序列的方向。对于能确定序列方向的 Unigene 我们给出其从 5'到 3'方 向的序列,对于无法确定序列方向的 Unigene 我们给出组装软件得到的序列。 本节问题: 1.Kerm 的含义? 2.contig 的含义? 3.scaffold 的含义? 4.unigene 的含义? 5.N50 的计算? 6.聚类的标准是什么? 7.有两个 read,read1:ACCAGCA;read2:TCCAGCA 请按照 kerm=5,构建 De bruijn 图 8.用不同 K-mer 组装得到的结果有什么差异?能合并吗? 9.影响组装的因素一般有哪些? 10,评价转录组的组装效果的常用指标有哪些? 11.转录组组装与基因组组装相比有何特点,制约转录组组装的主要因素有哪些? 1123..为插什入么片补段洞长后度的的大sca小ffo对ld组还装要结做果一有次何聚影类响,?主要目的是什么?
2.2 组装:
原理: 使用短 reads 组装软件 SOAPdenovo(Li, R., H. Zhu, et al. (2009). "De novo assembly of
装hum。aSnOgAePndoemnoevsow首ith先m将as具siv有el一y p定ar长all度el sohvoertrlreaapd的seqrueeandcsing连."成G更en长om的e 片Re段s.),做这转些录通组过从r头ea组ds overlap 关系得到的不含 N 的组装片段我们称之称为 Contig。然后,我们将 reads 比对回 Contig,通过 paired-end reads 能确定来自同一转录本的不同 Contig 以及这些 Contig 之 间的距离,SOAPdenovo 将这些 Contig 连在一起,中间未知序列用 N 表示,这样就得到 Scaffold。进一步利用 paired-end reads 对 Scaffold 做补洞处理,最后得到含 N 最少,两 端不能再延长的序列,我们称之为 Unigene。如果同一物种做了多个样品测序,则不同样品 组装得到的 Unigene 可通过序列聚类软件 TGICL(Pertea, G., X. Huang, et al. (2003). "TIGR