当前位置:文档之家› 基于reads宏基因组测序分析报告解读

基于reads宏基因组测序分析报告解读

Ø5.1 KEGG数据库 Ø5.2 MetaCyc数据库 Ø5.3 EggNOG数据库 Ø5.4 GO数据库 Ø5.5 EC酶库 Ø5.6 CAZy数据库(碳水化合物酶活性)
25
五、功能数据库注释——基于reads的功能分析基本步骤
基于reads的功能分析基本步骤: 1)使用HUMAnN2软件(2018年发表在Nature methods),将质控和去宿主之 后的序列与蛋白质数据库(UniRef90)进行比对(基于DIAMOND); 2)过滤掉比对失败的reads; 3)统计UniRef90各个蛋白的相对丰度(RPKM ,reads per kilobase per million),校正样本比对成功reads(mapped reads)数以及基因长度后的丰度。 4)根据UniRef90 的ID 和各个功能数据库ID的对应关系(主要来自LinkDB),统 计各个功能数据库对应功能相对丰度。 5)从各个数据库功能的相对丰度表出发,进行相对丰度柱形图展示,Circos图展 示,丰度聚类热图展示,组间功能差异LEfSe分析,组间功能差异pair-wise多重比 较DunnTest分析,显著差异功能物种来源柱形图分析,KEGG通路图填色,功能 与环境因子(或者其它组学数据)的相关性分析。
专注微生态
2020.09.14
Ø项目概述

Ø项Hale Waihona Puke 流程录Ø测序数据处理
Ø物种注释
Ø功能注释
Ø抗性基因注释
Ø相关性分析
2
一、项目概述
近年来,环境和生物体相互作用的微生物群体逐渐成为新兴的研究热点, 而大量复杂的微生物群体存在培养困难,构成复杂(包括细菌、古菌、真菌、 原生生物、病毒甚至小型真核生物)。因此如何用高通量精准的了解这些群体 的构成,基因功能分布以及具体的表达活性和代谢状况成为首要问题。
21
四、物种注释——共有物种分析
根据物种是否存在来寻找分组之间的特有或共有的物种,对于分组较少(小 于等于5)的实验方案,绘制韦恩图(Venn diagram)分析不同样品组之间特有 或共有的物种(种水平),用于统计多个样本中所共有和独有的物种数目,可以 直观表现样本分组间物种组成相似性及重叠情况(图4-5)。对于分组较多的 (大于等于3),绘制了花瓣图。
19
四、物种注释——LEfSe差异分析
LEfSe寻找每一个分组的特征微生物(默认为LDA>2的微生物),也就是 相对于其他分组,在这个组中丰度较高的微生物( Phylum水平)。
每一横向柱形体代表一个物种,柱形体的长度对应LDA值,LDA值越高则 差异越大。柱形的颜色对应该物种是那个分组的特征微生物(在对应分组中的 丰度相对较高)。
8
三、测序数据处理——序列质控和去宿主序列
测序获得的原始数据(Raw Data)中存在一定比例低质量数据。为了保 证后续分析结果的准确性和可靠性,需要根据碱基的质量信息对原始数据进行 序列质控和去宿主序列处理,获取用于后续分析的有效序列(clean data) 。 1.使用Cutadapt去除测序接头序列:
26
五、功能数据库注释
Ø①样品组成概况
——Pathway相对丰度柱形图
Ø②区分多组样品的Biomarker ——LEfSe差异分析LDA柱形图
Ø③功能物种来源分析
——物种来源组成柱形图
Ø④考察不同样品或者分组间的相似或差异性——聚类热图
Ø⑤展示每个样本中Pathway的丰度、各个Pathway分别在各个样本中
多维数据进行降维,从而提取出数据中最主要的元素和结构;PCA 能够提取
出最大程度反映样品间差异的两个坐标轴,从而将多维数据的差异反映在二维
坐标图上,进而揭示复杂数据背景下的简单规律。
而NMDS是非线性模型,其目的是为了克服线性模型的缺点,更好地反
映生态学数据的非线性结构,应用NMDS分析,根据样本中包含的物种信息,
20
四、物种的注释与评估——ANCOM差异分析
ANCOM(Analysis of composition of microbiomes)是另外一种比较微生物组学 数据中物种在组间的显著性差异的分析方法。ANCOM分析不依赖于数据的分布假设, 克服了相对丰度分析法的一些限制,能够有效降低结果的假阳性,更准确的分析各分类 水平的物种在组间的差异情况。
的比例
——Circos图分析
宏基因组学的典型应用: 人类微生物组计划(HMP) 人肠道宏基因组计划(MetaHIT) 地球微生物组计划(EMP)
4
二、项目流程
Ø项目试验流程 Ø项目生信分析流程
5
二、项目流程——试验流程
6
二、项目流程——生信分析流程
7
三、测序数据处理——序列质控和去宿主序列
采用Illumina Novaseq平台对样本总DNA进行PE150(双端150bp长度) 测序,序列信息以FASTQ格式的文件保存,每四行对应一条测序Read。 为了提高分析的准确性和效率,数据分析之前要对下机测序数据进行过滤: 1)除去建库过程中在样本DNA上添加测序接头等序列; 2)除去会影响后续生物信息学分析准确性的测序过程中产生的低质量碱基和 序列; 3)除去样本中可能混杂的宿主DNA序列。
3
一、项目概述
宏基因组学(Metagenomics)是一种直接对微生物群体中包含的全部基因组 信息进行研究的手段。它规避了对样品中的微生物进行分离培养,提供了一种对 自然环境中、不可分离培养的微生物进行研究的途径,更真实的反应样本中微生 物组成、互作情况,同时在分子水平对其代谢通路、基因功能进行研究。
16
四、物种注释——物种组成分析
在研究中,经常探究样品中的哪些特殊物种,其中高丰度(优势)物种分 析是此类研究最常用的手段。 结果展示:丰度前20的菌门在各个样品中的分布柱形图
17
四、物种注释
常用五种物种分组统计分析,包含: Ø1)聚类分析 Ø2)LEfSe差异分析 Ø3)ANCOM差异分析 Ø4)共有物种VENN分析 Ø5)多样性PCoA分析
免于培养的微生物学研究方法主要基于测序,高通量测序使我们一次可以 获得整个微生物群体的数据信息,简单来说包括两种策略: 1、基于特定标记基因的扩增测序方案(常见16s,ITs,18s或特定功能基因) 2、基于整个群落DNA进行测序,获取全部微生物基因组进而进行分类和功能 分析的策略(宏基因组测序metagenomics)。
在ANCOM分析中,W值是一个衡量组间差异显著性的统计量(类似F值,t值),W 值越高,代表该物种在组间的差异显著性越高。图中的每一个点都代表了一个比较的物 种,纵坐标代表W值,横坐标clr值代表组间样品丰度的差异程度,数字绝对值越高代表 相对丰度差异越大。因此在图中的点越靠近右上角(或左上角),则代表该物种与其他 物种(靠近横轴0位置的物种)相比更具有显著性差异。
22
四、物种注释——样品多样性指数分析
目前适用于生态学研究的降维分析主要是主成分分析 (PCA,Principal
Component Analysis)和无度量多维标定法(NMDS,Non-Metric Multi-
Dimensional Scaling)分析。
其中,PCA是基于线型模型的一种降维分析,它应用方差分解的方法对
以点的形式反映在多维空间上,而不同样本间的差异程度则是通过点与点间的
距离体现,能够反映样本的组间或组内差异等。 基于不同分类层级的物种丰
度表,我们进行了PCA和NMDS分析,如果样品的物种组成越相似,则它们
在PCA和NMDS图中的距离则越接近。
23
四、物种的注释与评估——样品多样性指数分析
PCA是主坐标分析(PCoA)的一种特殊情况(基于欧式距离的PCoA就 是PCA)。本报告利用PCoA分析方法,基于Bray Curtis距离来进行PCoA分 析,并选取贡献率最大的主坐标组合进行作图展示,图中样品的距离越接近, 表示样品的物种组成结构越相似。
为了研究样品物种组成及多样性信息,采用Kraken2对所有样品的全部 的有效序列进行注释分类。Kraken2是基于Kraken1研发的的最新版本 (2018)。
Kraken系列软件是一种使用精确k-mer匹配的分类系统,可实现高精 度和快速分类速度。该分类器将查询序列中的每个k聚体与包含给定k聚体 的所有基因组的最低共同祖先(LCA)匹配。
3.通过Bowtie2序列比对去除宿主序列: 微生物宿主DNA会对目的DNA造成干扰。基于参考基因组数据库,可以
通过序列比对的方法识别和去除宿主DNA。例如,使用Bowtie2和人类基因组 参考数据库hg38(GRCh38)可以识别和去除人体微生物群样本中的人类 DNA。
10
三、测序数据处理——质量检查和统计
分类完毕,继续用Bracken对Kraken2得到的分类结果进行分类后贝叶 斯重新估算丰度,来估算宏基因组样本的物种水平或属级丰度。
14
四、物种注释——物种组成分析
基于Bracken的绝对丰度及注释信息,对每个样品在7个分类水平(界、门、 纲、目、科、属、种)(Kingdom, Phylum, Class, Order, Family, Genus, Species )上的序列数目占总序列数的比例进行统计,可以有效的评估样本的物 种注释分辨率(注释到属/种的比例越高表示样本的注释效果越好)。图4-1展 示了每个样本中在各分类水平注释的相对程度:
横坐标(Axis 1)表示第一主成分,百分比则表示第一主成分对样品差异的贡献值;纵坐标 (Axis 2)表示第二主成分,百分比表示第二主成分对样品差异的贡献值;Axis 3坐标表示第三主成 分,百分比表示第三主成分对样品差异的贡献值。可以根据元数据的分组信息可以个性化展示其他
分类的距离关系。
24
五、功能数据库注释
每份DNA样品经Illumina Novaseq PE150测序都会得到两份数据:上游 序列Read1.fastq和下游序列Read2.fastq。序列过滤前和过滤后,都要用 FastQC统计这些序列的碱基质量并将结果进行可视化,以便于评价序列质量 和分析过滤效果。高通量测序中常用Q30(1/1000错误率)评价碱基质量的好 坏,不同Q值的意义如下:
相关主题