当前位置:文档之家› 高通量测序RNA-seq数据的常规分析

高通量测序RNA-seq数据的常规分析

案例一
虽然RNA-seq早已被大家所熟知,特别是在高通量测序越来越便宜的今天,但是RNA-seq数据的分析仍令多数小菜抓狂。

多个软件的使用,参数设置,参考基因组准备,输出结果的解读等等,都让很多初次接触测序数据或者非生物信息专业的人头疼不已。

哈哈,不用怕,有云生信,这都不是事儿!今天我就向大家简单介绍一下如何用云生信做RNA-seq数据的常规分析。

不过在此之前,我要稍稍啰嗦一下RNA-seq的常规分析流程,请不要拍砖头。

图1是RNA-seq数据从产生到分析的常规分析流程:根据实验设计,提取细胞RNA,并将RNA提交给测序公司,就可以坐等测序数据了。

测序公司会根据客户提供的RNA进行建库,上机测序。

拿到测序数据后,就到了我们大显身手的时候了。

首先,我们要对测序结果做个简单的质量评估,剔除低质量的数据。

然后,根据基因组数据(这里我们讲的是基因组数据已知的物种,基因组未知的有套独立的流程,这里不讲),将测序数据组装。

根据组装结果,计算基因或转录本的表达量。

最后,同芯片数据一样,我们可以根据表达量数据做很多分析,如差异表达分析,网络分析(包括蛋白互作网络,共表达网络等),也可以结合临床数据做分析(如预后,亚型分类、关联,药效等)。

图 1. RNA-seq常规分析流程
叨叨完毕,进入正题。

进入尔云后,打开“测序数据处理”模块,我们会看到图2的结果。

在这一模块,我们可以完成RNA-seq数据分析的前两步:1、数据质控和过滤低质量数据;2、基因组组装,计算基因表达量。

对于上面两部,尔云又根据是双端测序还是单端测序,分了两块。

以edgeR 为例,输出的DEGs.txt就是根据我们设定的参数得到的差异表达基因的列表,有geneSymbol, logCPM, PVlue信息。

图 2. 测序数据处理模块
质控结束后,尔云会给出全部的质控结果。

图3是以demo数据为例的双端测序的质控结果,好多好多呀,可以下了慢慢看。

建议主要关注一下xxx_qc_TABLE,该表格是对质控前后的数据统计,反应了测序的好坏。

Clean_xxx.fq是质控后的干净的fastq数据,是第2步组装的输入文件。

图 3.质控结果
组装完成后,会返回一个expression.txt的表达矩阵文件,该文件是下一步差异表达分析的输入分析。

得到表达矩阵后,我们就可以进入到第3步差异表达数据分析。

进入尔云的“差异分析”模块(如下图所示),它针对芯片和测序两种检测技术提供了不同的分析方案。

对于RNA-seq
数据,有DESeq,edgeR和NOISeq三中差异表达分析方法。

小白们只需要输入按照要求输入文件,设置参数,点保存即可。

图 4.差异表达分析模块
在差异分析的基础上,尔云还可以做功能富集分析,KEGG通路展示(作图工具-KEGG 通路做图-pathview),网络分析,同时也可结合临床生存数据做预后分析(作图工具-生存曲线分析),见图5.
图 5. 后续分析模块
图6是KEGG pathview的示例结果,差异表达的基因用高亮的颜色标注,红色高表达,绿色低表达。

清晰的展示了差异基因在通路中的分布,以及差异表达情况。

图 6. pathview结果
图7是PPI分析结果的一个例子,给出了网络图,以及边的边的列表。

如果用户想自己展示,调整网络,可以表达边的列表输入cytoscape中。

图7. PPI 网络构建
经过上面的几个步骤,我们就完成了RNA-Seq的基本分析流程。

整个过程,我们需要做的只是输入文件,设置参数,点击保存、运行。

So easy,老板再也不用担心我做不了RNA-seq 数据分析了。

参考文献
1.Huber-Keener K J, Liu X, Wang Z, et al. Differential gene expression in tamoxifen-resistant
breast cancer cells revealed by a new analytical model of RNA-Seq data[J]. PLoS One, 2012, 7(7): e41333.
2.Beane J, Vick J, Schembri F, et al. Characterizing the impact of smoking and lung cancer on
the airway transcriptome using RNA-Seq[J]. Cancer prevention research, 2011, 4(6):
803-817.。

相关主题