当前位置:文档之家› 基因测序案例

基因测序案例

分析草案项目名称:西北农林科技大学18个花绒寄甲转录组+18个小RNA+6个蛋白定量分析(iTRAQ)测序及分析合同(无参考基因组)委托人(甲方):西北农林科技大学林学院受托方(乙方):签订地点:签订日期:年月日有效期限:年月日至年月日1.项目描述1)材料说明:研究对象为花绒寄甲(Dastarcus helophoroides),实验方案是对4龄期L1、6龄期L2、蛹期L3、1年成虫L4、2年成虫L5、4年成虫L6共6个时间点(每个时间点有3个生物学重复)的样本进行18个转录组测序、18个Small RNA测序、6个ITRAQ蛋白定量实验。

其中,转录组、Small RNA测序使用同一样品。

2)项目背景信息与项目策略3)测序数据分组、合并及符号发育节点: 4龄期L1 6龄期L2蛹期L3 1年成虫L4 2年成虫L5 4年成虫L6原始重复数据:(1-3) (1-3) (1-3) (1-3) (1-3) (1-3)mRNA合并数据: X1 X2 X3 X4 X5 X6 X1-X6合并=T↓↓↓↓↓↓7组拼接数据:X1● X2● X3● X4● X5● X6●X1●-X6●合并=T●蛋白质翻译库X1d● X2d● X3d● X4d● X5d● X6d●Td●按照链特异性文库建库strand-specific RNA sequencing(Directional RNA-Seq)Small RNA合并:Y1 Y2 Y3 Y4 Y5 Y6 Y1-Y6合并=U ↓↓↓↓↓↓↓注释比对库 Y1 Y2 Y3 Y4 Y5 Y6 U蛋白质组数据: D1 D2 D3 D4 D5 D6 D1-D6合并=V ↓↓↓↓↓↓↓注释比对库 D1 D2 D3 D4 D5 D6 V对比15次: L1-L2,L1-L3,L1-L4,L1-L5,L1-L6;L2-L3,L2-L4,L2-L5,L2-L6;L3-L4,L3-L5,L3-L6;L4-L5,L4-L6;L5-L64)原始数据:每发育节点转录组3组重复数据;Small RNA的3组重复数据;蛋白组学1组数据。

合并数据:3个原始重复测序数据合并为1组再组装、mapping。

转录组X1~X6,组装库X1●~X6●;Small RNA 为Y1~Y6;蛋白质组为D1~D6。

总数据:转录组X1~X 6合并为T、组装库T●、再mapping,;Small RNA的Y1~Y6合并为U、再mapping;蛋白组学D1-6合并为V、再mapping,转录组蛋白翻译库W。

5) 经费包括测序及以下所有信息分析费在内,信息分析费不再另行支付。

1)材料说明:研究对象为花绒寄甲(Dastarcus helophoroides),实验方案是对4龄期L1、6龄期L2、蛹期L3、1年成虫L4、2年成虫L5、4年成虫L6共6个时间点(每个时间点有3个生物学重复)的样本进行18个转录组测序、18个Small RNA测序、6个ITRAQ蛋白定量实验。

其中,转录组、Small RNA测序使用同一样品。

2)项目背景信息与项目策略3)测序数据分组、合并及符号发育节点: 4龄期L1 6龄期L2蛹期L3 1年成虫L4 2年成虫L5 4年成虫L6原始重复数据:(1-3) (1-3) (1-3) (1-3) (1-3) (1-3)mRNA合并数据: X1 X2 X3 X4 X5 X6 X1-X6合并=T↓↓↓↓↓↓7组拼接数据:X1● X2● X3● X4● X5● X6●X1●-X6●合并=T●蛋白质翻译库X1d● X2d● X3d● X4d● X5d● X6d●Td●按照链特异性文库建库strand-specific RNA sequencing(Directional RNA-Seq)Small RNA合并:Y1 Y2 Y3 Y4 Y5 Y6 Y1-Y6合并=U ↓↓↓↓↓↓↓注释比对库 Y1 Y2 Y3 Y4 Y5 Y6 U蛋白质组数据: D1 D2 D3 D4 D5 D6 D1-D6合并=V↓↓↓↓↓↓↓注释比对库 D1 D2 D3 D4 D5 D6 V对比15次: L1-L2,L1-L3,L1-L4,L1-L5,L1-L6;L2-L3,L2-L4,L2-L5,L2-L6;L3-L4,L3-L5,L3-L6;L4-L5,L4-L6;L5-L64)原始数据:每发育节点转录组3组重复数据;Small RNA的3组重复数据;蛋白组学1组数据。

合并数据:3个原始重复测序数据合并为1组再组装、mapping。

转录组X1~X6,组装库X1●~X6●;Small RNA 为Y1~Y6;蛋白质组为D1~D6。

总数据:转录组X1~X 6合并为T、组装库T●、再mapping,;Small RNA的Y1~Y6合并为U、再mapping;蛋白组学D1-6合并为V、再mapping,转录组蛋白翻译库W。

5) 经费包括测序及以下所有信息分析费在内,信息分析费不再另行支付。

2.目标及技术内容(流式细胞仪预测该虫基因为235M,已完成了1个成虫样2G转录组测序,注释率80%)(1)Hiseq 2000完成 18个(花绒寄甲Dastarcus helophoroides)RNA样品链特异性转录组测序,每个样品产生4Gb clean data以上,并完成相应的信息分析。

Q20 95%以上,Q30 90%以上(2)Illumina完成18个(花绒寄甲Dastarcus helophoroides)RNA样品Small RNA测序(包括miRNA,rRNA,tRNA,snRNA,piRNA,snoRNA,microRNAs,siRNA,miRNAs等),保证每个样本产生不低于15~20M的clean reads,并完成相应的信息分析。

Q20 95%以上,Q30 90%以上(3)运用iTRAQ技术,完成6个样品的蛋白组学定量分析。

对6个(花绒寄甲Dastarcus helophoroides)样品进行标记,将液相色谱与质谱联用,保证每个样本产生的蛋白质数不少于转录组注释数据量的1/10、鉴定非冗余蛋白质数不少于转录组数据量的0.6/10(果蝇9124个),通过生物信息分析鉴定蛋白和比较差异蛋白的表达量,并完成相应的信息分析。

3.转录组技术路线3.1 项目描述对18 个RNA样品进行检测,样品检测合格后采取以下技术路线对转录组进行测序:常规转录组测序样品制备――上机测序(每个样品产生 4Gb clean data)――生物信息学分析。

发育节点: 4龄期L1 6龄期L2蛹期L3 1年成虫L4 2年成虫L5 4年成虫L6原始重复数据:(1-3) (1-3) (1-3) (1-3) (1-3) (1-3)mRNA合并数据: X1 X2 X3 X4 X5 X6 X1-X6合并=T7组组装数据:X1● X2● X3● X4● X5● X6●X1●-X6●合并=T●功能注释√√√√√√√ORF/CDS预测√√√√√√√1 SSR/SNP分析√√√√√√√lncRNA预测√√√√√√√蛋白质翻译库 X1d● X2d● X3d● X4d● X5d● X6d●Td●按照链特异性文库建库strand-specific RNA sequencing(Directional RNA-Seq;trinity组装对比15次: X1-X2,X1-X3,X1-X4,X1-X5,X1-X6;X2-X3,X2-X4,X2-X5,X2-X6;X3-X4,X3-X5,X3-X6;X4-X5,X4-X6;X5-X61)项目分析流程(1)转录组denovo 组装单独拼接:每个发育时期3个生物学重复样本测序数据合并为1组后进行链特异性组装。

六个发育时期转录组数据X1~X6,按照链特异性文库进行组装获得6个转录本(Ttranscript),之后使用CD-HIT软件聚类获得各自的Unigene。

(2)混样拼接:将六组不同发育时期,三次生物学重复的样本测序数据合并为T, 通过拼接组装为大转录本T●(Ttranscript),使用CD-HIT软件聚类获得其的Unigene。

(3)组装结果评估:将组装得到转录本与NCBI中该物种或近源物种的已知序列(转录本或基因组)进行比对,评估组装结果。

2)功能注释将通过拼接获得转录本X1●-X6●、T●的蛋白数据库(nr、Swiss-Prot、IPR、TrEMBL、KEGG和KOG等数据库)进行比对,通过被比对序列的相似行进行功能注释。

3)KEGG 注释转录组的 KEGG 注释主要是对得到的基因注释进行 KEGG Pathway 分析,此分析是基于预测得到 ORF 序列,利用 KAAS 预测得到对应的 KO 号,然后利用 KO 号对应到KEGG pathway 上,分析基因与 KEGG 中酶注释的关系文件以及映射到 pathway 的信息。

4)GO注释 5)KOG分类6)预测编码蛋白框CDS(ESTScan预测) 7)转录本的可变剪切异构体isoforms分析8)转录本SSR和SNP分析 9)lncRNA的预测将未比对上蛋白数据库的序列作为lncRNA的预测候选序列,与已知lncRNA数据比对进行预测。

10)mRNA表达分析将使用T●为参考序列,将18个样本(六个发育时期三次生物学重复)的原始数据reads分别mapping到T●序列上进行基因表达定量分析。

11)差异基因分析12)差异表达基因功能富集性分析(GO富集分析和KEGG代谢通路富集分析)13)时空表达顺序分析 14)基因共表达网络分析15)补充说明:(1)以上1-9项分析项目7个转录本(X1●-X6●、T●)平行分析。

(2)将使用T●为参考序列,将18个样本(六个发育时期三次生物学)的原始数据reads分别mapping到T●序列上进行基因表达定量分析。

(同一个物种不同发育时期的基因组序列是一样,所以基因对应转录产物mRNA也是一致的。

不同的发育时期只存在基因表达或不表达的情况。

每个发育时期单独拼接的转录本只代表该时期的基因表达情况,而T●涵盖该物种6个时期所有基因表达情况。

若某个时期有测序reads能mapping到T●的某个转录本,则表示该转录本有表达,否之则为不表达。

)(3)后续蛋白定量分析,使用T●所对应的蛋白序列为Td●参考序列。

3.2 生物信息学分析内容1.对原始数据进行去除接头序列及低质量reads的处理1)原始数据L1(1-3)、L2(1-3)、L3(1-3)、L4(1-3)、L5(1-3)、L6(1-3) 测序产量统计2)L1(1-3)、L2(1-3)、L3(1-3)、L4(1-3)、L5(1-3)、L6(1-3)测序质量与测序错误●测序质量Q与测序错误E;●GC/AT碱基组成分布,原始数据处理后质量及碱基质量分布(fastqc工具);●测序饱和度分析测序饱和度分析图;●raw data产出统计,raw data 及clean data的数据量及 Q20、Q30 统计,raw data及clean data 测序质量分布图,duplicate rate 统计3)测序随机性分析2. 转录组组装与分析(可首选赤拟谷盗**Tribolium castaneum、次选家蚕*Bombyx mori,或侯选黑腹果蝇Drosophila melanogaster、冈比亚按蚊Anopheles gambiae、意大利蜜蜂Apis mellifera、埃及伊蚊Aedes aegypti做参考靠基因,但公司在选择时必须慎重,一旦选定,后边其他分析所使用的参考基因组,也必须是该处所选定的种类;也可直接以T●作为参考基因,因为T●数据量肯定超过各个发育节点的数据量。

相关主题