实验1基因组序列组装(软件CAP3的使用)一、实验目的1.了解基因组测序原理和主要策略;2.掌握CAP3序列组装软件的使用方法。
二、实验原理基因组测序常用的两种策略是克隆法(clone-based strategy)和全基因组鸟枪法(whole genome shotgun method)。
克隆法先将基因组DNA打成大的片段,连到载体上,构建DNA文库;再对每一个大片段(克隆)打碎测序。
序列组装时先组装成克隆,再组装成染色体。
克隆测序法的好处在于序列组装时可以利用已经定位的大片段克隆, 所以序列组装起来较容易, 但是需要前期建立基因组物理图谱, 耗资大, 测序周期长。
全基因组鸟枪法测序无需构建各类复杂的物理图谱和遗传图谱,采用最经济有效的实验设计方案,直接将整个基因组打成不同大小的DNA片段构建Shotgun文库,再用传统Sanger测序法或Solexa等新一代测序技术对文库进行随机测序。
最后运用生物信息学方法将测序片段拼接成全基因组序列。
该方法具有高通量、低成本优势。
序列组装时,先把把单条序列(read)组装成叠连群(contig)、再把叠连群组装成“支架”(scaffold),最后组装成染色体。
本实验将练习在Linux环境下用CAP3软件组装流感病毒基因组。
1.CAP3序列组装程序简介Huang Xiaoqiu. 和 Madan,A. 开发的一套用于序列拼接的软件,此软件适用于小的数据集或 EST 拼接,它有如下特征:1. 应用正反向信息更正拼接错误、连接contigs。
2. 在序列拼接中应用 reads 的质量信息。
3. 自动截去 reads5`端、3`端的低质量区。
4. 产生 Consed 程序可读的ace 格式拼接结果文件。
5. CAP3 能用于Staden软件包的中的GAP4 软件。
2.下载此软件可以免费下载,下载地址:http:///download.html。
填写基本信息表格,即可下载。
CAP3 详细参考文档可见:http:///sas.html。
3.安装(1)上传cap3 的压缩包到本地linux/unix 运算服务器;(2)解压缩:bash-2.05b$ tar xvf cap3.tarCAP3/CAP3/READMECAP3/cap3CAP3/docCAP3/aceformCAP3/formcon(3)查看解压缩后的文件:bash-2.05b$ ls –ltotal 240-rwxr-xr-x 1 soft bgi 25844 Sep 2 2002 formcon*-rwxr-xr-x 1 soft bgi 169836 Sep 2 2002 cap3*-rw-r----- 1 soft bgi 513 Aug 22 2002 README-rw------- 1 soft bgi 18448 Aug 22 2002 aceform-rw-r----- 1 soft bgi 18922 Jun 21 2002 doc4. 使用程序运行命令行:cap3 <dna-file in fasta format> [options] >cap3.out5.输入:输入序列是普通的FASTA格式,如果序列文件名为“xyz”,则质量文件应命名为“xyz.qual”,约束文件应命名为“xyz.con”。
在命令行中只需输入序列文件,程序会自动在相应的目录中寻找相应的质量文件和约束文件。
“xyz”格式如下:>Sequence1 ACGTGCGCGATCGCCTGCTAGGCGTACGTCGCAGGCGATCGATGTGCTAGATCAGATGACA>Sequence2GGGCTAGATTAGCACCACATACATCGCTCA“xyz.qual”格式如下:>R16 8 8 8 15 17 17 17 12 12 20 20 29 31 34 34 38 38 40 40 49 49 37 33 3333 33 30 31 24 24 34 45 45 45 45 38 38 38 45 40 40 40 40 40 40 40 40 40 4033 33 33 33 33 33 40 37 40 40 45 45 45 40 40 40 45 45 45 45 49 49 49 49 4540 43 43 43 40 40 40 37 40 49 49 40 40 37 37 37 42 45 40 49 45 45 45 45 4036 36 36 36 33 33 27 27 21 19 19 27 33 33 34 36 36 36 36 38 36 36 40 33 35>R298 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 9837 37 37 37 37 37 37 37 37 37 37 37 37 34 34 34 34 37 37 37 37 34 34 37 3834 37 34 37 37 37 37 37 45 37 37 37 37 37 37 37 40 37 37 32 45 41 45 45 41约束文件“xyz.con”中每一行都以如下格式指定了正反向的约束:ReadA ReadB MinDistance MaxDistance其中“ReadA”和“ReadB”是两个reads 的名称;“MinDistance”、“MaxDistance”是最小、最大距离(bp)。
约束文件*.con 可由此软件包中的 formcon 程序生成,用法:formcon [序列文件] [最小长度] [最大长度]此处最小、最大长度指克隆的长度限制,单位为 bp。
克隆长度限制要与插入片段长度相差1000bp 到 1500bp 左右,如:插入片段为 2kb 到 3kb,建议 500 为克隆最小长度,4000 为克隆最大长度。
输入的序列文件中一对正反向的reads 名称在第一个句点前要保持相同。
6.输出输出文件格式:1. xyz.cap.ace:ace格式文件。
注意:reads 的 5`、3`的低质量区没有被显示在 ace 格式中。
2. xyz.cap.contigs:生成的contigs 序列文件。
3. xyz.cap.contigs.qual:生成的contigs 质量文件。
4. xyz.cap.singlets:没有用于拼接的reads 文件。
5. :关于拼接的额外信息文件。
6. cap3.out:拼接的结果文件。
7.参数参数选项(默认值):-a N specify band expansion size N > 10 (20)-b N specify base quality cutoff for differences N > 15 (20)去除低质量时的质量值 N > 5 (12)-c N-d N specify max qscore sum at differences N > 20 (200)-e N specify clearance between no. of diff N > 10 (30)重叠部分最大 gap 长度 N > 1 (20)-f Ngap 罚分 N > 0 (6)-g N-h N specify max overhang percent length N > 2 (20)比对分值 N > 0 (2)-m N不匹配的分值 N < 0 (-5)-n N-o N specify overlap length cutoff > 20 (40)-p N specify overlap percent identity cutoff N > 65 (80)-r N specify reverse orientation value N >= 0 (1)-s N specify overlap similarity score cutoff N > 400 (900)匹配得最大长度 N > 30 (300)-t N用于修正得最小约束数目 N > 0 (3)-u N用于连接得最小约束数目 N > 0 (2)-v N序列去除信息的文件名 (none)-w N输出文件名称的前缀 (cap)-x N去除碱基范围 N > 5 (250)-y N-z N min no. of good reads at clip pos N > 0 (3)三、实验内容(步骤)1.在个人目录下新建文件夹:seq_assembl_cap3:$ cd$ mkdir seq_assembl_cap32.将服务器172.16.98.6目录/home/pub/genome/virus/influenza_a_virus/raw_data 下的所有文件复制到seq_assembl_cap3目录下:$ cd seq_assembl_cap3$ cp /home/pub/genome/virus/influenza_a_virus/raw_data/* . #注意最后的点“.”3. 将序列文件解压:$ zcat fasta.influenza_a_virus__a_new_york_ur07_0093_2008_h3n2__.001.gz >fasta4. 运行CAP3程序:$ cap3 fasta5. 检查结果四、实验报告1.运算环境(包括操作系统和软件),实验步骤,结果文件记录;2.实验中遇到的问题,如何解决的。
五、参考文献Huang, X. and Madan, A. (1999) CAP3: A DNA Sequence Assembly Program. Genome Research, 9: 868-877.实验2基因组序列组装(软件velvet的使用)一、实验目的1.了解新一代测序技术所测序列的特点2.掌握软件velvet的使用方法二、实验原理新一代测序技术又称第二代测序技术,主要包括SOLiD,Solexa和454测序技术,其特点是通量高、测序成本低、测序速度快、周期短,缺点是所测序列较短,给后续的序列组装带来了许多问题,适用于第一代测序技术的组装软件如CAP3,phrap等不能组装新一代测序技术尤其是SOLiD和Solexa所测的序列。
因此,人们又开发了适用于新一代测序技术的软件,如NextGENe(ABI开发,商业软件),ELAND(Solexa),EDENA,SSAKE 及velvet等。