当前位置：文档之家› 基于系统的多源多层组学数据分析结课报告

基于系统的多源多层组学数据分析结课报告

“基于系统的多源/多层组学数据分析”学习体会

我的本科专业与生物统计不相关，所以背景知识较为缺乏，我选择本门课的目的是为将来研究生期间的学习打一些基础。其实这门课对我来说有些深奥，我就从基本的概念方法等方面对“基于系统的多源/多层组学数据分析”进行总结归纳，以及谈一下自己的学习心得和阅读体会。

下面主要从“基于基因集分析”和“基于基因网络分析”两个方面展开阐述。

一、基于基因集分析

1、基因集概念：基因的一个集合，如：属于相同统计群的所有基因组成的集合；涉及一个特定路径的所有基因组成的集合；在特定文章中提到的所有基因组成的集合等。

2、本质：在相同集合中的基上因通常是一致的，而不是相互独立的。它们应该作为一个整体而不是个体被学习。

3、如何构造：统计学上的群（假定功能相近的基因有共同联系的度量；K-均值，分层）。从生物学上的建构（GO；KEGG；Wikipathways；MsigDB）。

4、分类：

一个表型可以被看做一个基因集，因此可以通过研究基因集的关联来发现基因影响表现的机制。有许多基因集分析方法，如基因集边际分析、基因集关联分析（GSEA）等。

（1）基因集边际分析：

目标：识别哪个基因集与因变量有重要的联系。

方法：

（a）自限性方法：只使用在一个特定集合中基因的度量。

零假设：型相关联基因集内没有基因与表0H

算法：Q2; Globaltest; FCS.SC; ES.SC

（b）竞争性方法：比较一个基因集合与另一个基因集合。

零假设：基因更加紧密的关联不比基因集外的基因集内的基因与表型0H

算法：Q1; FCS; GSEA（富集分析）; GSA; SAFE

（c）比较：相同的设定条件下，自限性方法的筛选率高于竞争性方法。但当两组间均数相差较小时，两种方法均不能较好地识别组间差异。

（2）基因集关联分析：

基因集关联分析利用密度和P值对基因集进行检验取得良好的效果。该方法提供了一个有效的手段来分析生物途径之间的关联，一方面通过分子相互作用网络增加了信号强度，另一方面从基因集整体的角度，将集内基因的信号整合作为集合的特征来提高信号强度，从而有效的提高了分析敏感性。下面主要讨论基因集关联分析中的降维和变量选择：

（a）降维：

Step1:构造基因集或路径

Step2:在每个基因集合内做PCA

Step3:识别每个集合中前几个PCs

Step4:使用PCs进行回归分析

注意：实践上很简单（使用现有的软件可轻松实现）；PCs可有很多功能性的解释。

（b）变量选择：

本质：将每个基因集看作一个群

一层或两层的选择可以通过惩罚, thresholding,和其他正则化方法来构建

二、基于基因网络分析

1、区别：基于基因集分析：关注两个基因是否有联系，然而没有联系度

基于基因网络分析：可以通过提供联系度和联系方向的信息。

jka,：基因k和基因j的邻接度量（值越大说明两个基因统计上或功能上接近，或有很强的联系）

2、方法

（1）生物的方法

淘汰学：删除或修正一个基因，看它是如何影响其他的。蛋白质相互作用为基础的网络：使用后阶段产品或前阶段调节的信息。

优势和劣势：

（a）直接描述因果关系

（b）产生一个定向的网络（可能kjjkaa,,）

（c）只应用于小数量的基因。若全面的推断网络，需要的是同时地淘汰大量的基因。

说明：这个领域已经展开（在数据收集和方法论的发展上），然而一个综合的阐述、讨论或比较仍然空缺。

（2）统计的方法

WGCNA；Graphical Lasso；Bayesian network；Boolean network......

方法1：Graphical Lasso

假设服从多元正态分布；两个节点是条件独立的如果在1-上对应的元素是0（其中是协方差矩阵）；这意味着1-的一个稀疏的估计；Lasso和其他的正则化方法被应用于产生稀疏估计。

方法2：WGCAN（加权基因共表达网络分析）

WGCAN网络是不定向的（adjacency矩阵是对称的）；是加权的（adjacency

measure是连续值）

WGCAN算法：1,2,3,4,5

（3）回归

对于接下来的分析，我们假定网络结构已经被构建，以至于我们有全体模块、连接性度量、adjacency度量等。现在主要目标：运用网络结构或信息去帮助回归。

➢ 基于网络的边际分析

1，基于节点分析

（1）一个经验观察：有较高的内模块相连性的基因有更大的可能与疾病结果和表现型联系。

讲得通吗？有可能（一些简单的疾病，如囊性纤维化，因为一个单个的或一些基因组的改变引起）；然而，复杂的疾病由于系统层的改变，高联系性节点更容易引起这个改变。

（2）策略：联系性提供给边际统计的意义一些额外的信息；一个策略是注意有高统计意义和高内模块联系性的基因。

（3）例子：120个恶性胶质瘤病人的存活率。

（4）注意：这个方法并不是万无一失的，高关联性并不是必要的或有效的；相反的例子：非常强的信号、拥有补偿作用的基因。

2，基于模块的边际分析

（1）假设有M个模块，用)(jm表示基因j的模块成员数，定义一个由模块m中的基因组成的向量mjmXXjm)(:

（2）法1：对Mm,...,2,1，计算模块意义度量，如mXY~对比1~Y的似然比测试中的P值（mp），如果模块大，需要正则化的估计（如ridge）；对mpp,..,1应用FDR或Bonferroni。

（3）法2：对于模块Mm,...,2,1，进行PCA和识别本征基因m；对于Mm,...,2,1，建立回归模型mY~，用mp表示P值，注意这是单变量回归问题；对mpp,..,1应用FDR或Bonferroni。

其中本征基因是每个模块中第一重要的成分，是一个最高关联的基因。

➢ 基于网络的关联分析 1，降维：

（1）方法：PCA是降维技术的代表

（2）目标：使用基于PCA技术去容纳模块结构

（3）方法：

✓ 基于本征基因分析

（a）提议从M模块中使用第一个PCs作为回归中的新变量

（b）步骤：构建模块；计算本征基因；进行标准回归分析

✓ 基于代表特征分析

（a）在实际数据分析中，本征基因在模块内不是最重要的，此外，现有的基于本征基因分析并不适应于相互作用。

（b）代表特征：使用Pcs构建，并被用于代表模块的效果。

（c）步骤：构建模块；计算代表特征；进行回归分析

注意：正则化（如ridge）是需要的，此方法也可运用于基因集分析。

（d）代表特征的四个集合：R1；R2；R3；R4

（4）注意：其他降维技术，如PLS，ICA，可以像PCA一样用相同的方式应用，它们的数值表现待检验。好的降维，相互作用容易适应，不需要特殊的软件；坏的解释性，如果你可以将模块和生物联系起来则不是那么坏。

2，变量选择

方法：Sparse boosting；Thresholding；penalization;

（1）Sparse boosting：

（a）boosting是一类机器学习方法，它将弱规则（个体的基因）组合得到最后一个强规则（综合的模型），这个最后的强规则比任何单个规则性能高的多。

（b）预测数据学习案例

定义T是生存时间的对数，X是d维基因；

考虑加速失败时间模型AFT：'XT

在对的审查下，观察),min(CTY和)(CTI

使用i表示thi安排好的对象

损失函数：2/)(2')()(,..,1iiiniXY，权重i来自KM估计，不是取决于未知的参数

（c）NSB（网络Sparse Boosting）

 注意：模型和目标函数中的Boosting部分是相对独立的

 策略：

Step1：每个模块运用Sparse boosting进行分离的分析。对于每个模块，这步产生了一个最优marker（选择基因的线性组合），代表这个模块内所有基因的影响。

Step2：考虑所有最优markers的联合影响，使用Sparse boosting选择那些与预测相关联的。

 算法：

Step1：Within-module boosting。

(a)初始化；(b)匹配和修正；(c)迭代；(d)停止

Step2：Module-wise boosting。

（2）正则化的Thresholding

（a）Thresholding在正则化估计中占有特殊的位置，许多方法（如penalization）在Thresholding中可找到根源。

（b）预测数据的学习案例

（c）策略：

① 一个以梯度（导数）为基础的迭代优化程序

② 开始于一个零模型

③ 在每次迭代中，比较基因和选择重要基因有大的梯度，大的内模块关联性，只有选择基因的估计被更新

④ 迭代到收敛为止

（d）算法：

步骤：1,2,3,4,5,6

（3）一个对penalization的自然延伸

Penalization：除了Lasso，有大量的惩罚方法：bridge，SCAD，MCP...，在后文的变量选择中将详细阐述。

三、高维数据的降维和变量选择方法

1、降维

为什么降维？多重共线性（预测变量之间相互关联，多重共线性会导致解空间的不稳定）；高维空间的稀疏性（高维导致样本数相对较少，使得某些统计上的渐进性质受到破坏）；仅在变量层面分析可能会忽略变量之间潜在联系（如几个预测变量可能落入仅反映数据某一方面特征的组内）；膨胀的维数导致计算量迅速上升；传统的方法在处理高维数据不满足稳定性要求等。

降维是什么？减少预测变量的个数，将数据映入低维空间，这个低维空间保存数据重要的特征，经常将原始数据给予线性或非线性转换。

降维主要有以下几种方法。

（1）线性降维方法

e商务文档

基于系统的多源多层组学数据分析结课报告

相关文档推荐：