◇专论◇中国临床药理学与治疗学中国药理学会主办CN 3421206/R ,ISSN 100922501E 2mail :ccpt96@ 2010May ;15(5):481-4892010203211收稿 2010204224修回E 2mail :ajiye333@hot 代谢组学数据处理方法———主成分分析阿基业中国药科大学药代动力学重点实验室&代谢组学研究室,南京210009,江苏摘要 代谢组学在生命科学领域得到了越来越广泛的应用并展现出良好的前景。
代谢组学分析产生的含有大量变量的数据难以用常规方法进行分析,如何正确分析和解释代谢组学的数据是研究的关键。
本文主要介绍了在代谢组学数据分析中占主导地位的主成分分析基本方法,旨在加强代谢组学数据分析的基础知识并规范数据分析的方法。
关键词 代谢组学;主成分分析;偏最小二乘投影关联分析;偏最小二乘投影判别分析;正交偏最小二乘投影分析中图分类号:R969.1文献标识码:A文章编号:100922501(2010)0520481209代谢组学(metabolomics 或metabonomics )是“后基因组学”时期新兴的一门学科,“代谢组学”一词虽然常以“metabonomics ”或“metabolo 2mics ”出现,但多数学者通常并不对其加以严格区分,绝大多数情况下这两个词被认为包含了等同的意义。
根据研究的内容、目的、偏重点和对代谢组学的认识不同,代谢组学被赋予了不同的英文名称,如代谢物分析(metabolite p rofiling )、代谢谱分析(metabolic profiling )、代谢指纹谱分析(metabolic fingerp rinting )等;根据分析的目标化合物不同,还可以分为目标化合物分析(targeting analysis )和(无设定目标的)全谱分析(non -tar 2geting analysis )。
无论采用了哪种名称和说法,代谢组学的研究对象都是体内“代谢组”(metabo 2lome ,即生物样本、系统、组织或细胞中小分子化合物的总称)。
不管采用哪种测定方法,应用代谢组学技术都可以测定到许多内源性化合物的定性/定量信息。
这些信息在输出的谱图上表现为许多信号峰,在色谱质谱图上表现为不同保留时间出现色谱峰,在核磁共振谱图上表现为不同化学位移处的色谱信号。
每个信号峰都既包含了检测分子的定性/结构信息,也包含了定量信息。
以气相色谱-质谱检测为例,样品中的分子经过数十米长的石英毛细管色谱柱色谱分离后在色谱图上的不同时间出现,输出的总离子流图上的每个色谱峰都包含该物质定性信息(质谱图)和定量信息(峰高或峰面积),图1。
对于特定化合物来说,其定性信息就是该化合物的特征谱图和色谱保留时间,是化合物鉴定的基础;其定量信息就是该化合物的色谱响应强度,如峰高、峰面积,是定量比较不同样品或组别之间差异的基础。
中国药科大学药物代谢动力学重点实验室&代谢组学研究室副研究员,主要从事药物代谢动力学、代谢组学、代谢性疾病发病机制、与代谢相关的药效或药物毒性的分子机制等方向的研究。
·184· 由于每分析一个样品都出现大量(通常数百甚至数千个)色谱峰,这些色谱峰包括氨基酸、脂肪酸、脂、小分子有机酸、核苷、嘌呤化合物、氨类化合物、糖醇类化合物、神经递质,还有许多暂时无法鉴定的分子。
无论是来源于气相色谱-质谱(GC/MS )、液相色谱质谱(L C/MS )、核磁共振(NMR )波谱,最终所得到的定量数据都将构成一个如表1所示的数据集,该表第一列为样品名/观测对象(observation );第一行为色谱峰/化合物(即检测变量,variables )或特定保留时间(MS 数据)或特定化学位移(NMR 数据),对应之处为色谱定量数据。
这样每个样品的特征就由同一行中的众多定量数据所决定,而各个样品之间或者各组样品之间差异的程度取决于上述定量数据。
然而,由于数据量非常大,采样常规统计分析方法既难以发现样品之间或各组之间的异同,也难以发现样品中的哪些变量(分子)造成上述差异。
因此代谢组学数据需要特殊方法加以分析。
通常情况下,可以采用主成分分析(也称模式识别)、聚类分析、神经元网络分析等方法进行分析,其中应用最为广泛的是主成分分析方法[1]。
由于主成分分析方法比较抽象,并不为许多代谢组学研究者所熟悉,本文希望用最简洁、易懂的语言介绍主成分分析的原理和常规分析方法。
图1 G C/T OFMS 测定血浆和血清的总离子流图A :plasma ;B :serum.The compounds were identified as :1,Pyruvate ;2,Alanine ;3,Hydroxy -acetate ;4,Lactate ;5,3-Hydroxy 2butyrate ;6,Valine ;7,Urea ;8,Isoleucine ,Proline ;9,G lycine ;10,Serine ;11,Threonine ;12,Pyroglutamate ;13,Creatinine ;14,Phenylalanine ;15,G lutamine ;16,glutamate ;17,Citrate ;18,G lucose ;19,Uric acid ;20,Linoleic acid ;21,Oleic acid ;22,Trypto 2phan ,stearate ;23,gamma -Tocopherol ;24,Cholesterol.1 主成分分析的原理下面就以表1数据为基础介绍主成分分析方法的原理。
假如该组数据中样品数为n ,检测到的色谱峰/或变量数为m 。
那么,这个原始数据表的几何含义就代表了在一个m 维空间中分布着n 个点,每个样品的位置由其对应的一组变量(矢量)所确定。
因代谢组学可以检测许多色谱峰/变量,m 数目通常很大,由此原始数据产生的数学模型无法直观地发现样品或组别之间差异,这时就可以考虑用投影的方法对上述(多维空间)模型进行降维处理以化繁为简。
主成分分析是一种基于投影技术的数据分析方法[2]。
在模型计算时首先利用最小二乘法原理找到一条直线使所有样品距离该直线的残差平方和最小,而投影在此数轴方向的矢量平方和最大,那么该直线方向也就体·284·Chin J Clin Pharmacol Ther 2010May ;15(5)现了样品间最大差异,由此得到第一个主成分(PC1);在此基础上,沿着与前一个主成分直线垂直方向找到其次差异最显著的直线,得到第二个主成分(PC2),如此反复。
通过这种方式,抛弃细小的、无序的差异,保留最大的、有序的差异,最终得到只有少数几个主成分的数学模型,并使数据变得简单并容易理解和展示。
这里以二维空间为例介绍主成分分析的方法。
如图2所示:数据分布在一个二维空间中,但显然,若以原有的横轴或纵轴为主成分方向,所有样品点距离它们的残差平方和不可能最小,在这两个方向上也没有实现各样品在横轴或纵轴投影的方差最大,因此也就不能很好地表现该组数据最大差异特征。
为了最大限度地体现数据的分布特征,所选择的直线必须包含各点的在该数轴上投影的最大方差,如图2所示能体现数据最大方差的应为直线PC1(新X 轴),假设数据的重心(坐标原点)在O 点,数据点Pi 在直线PC1上的投影点为OMi ,所有样品在PC1上的投影数据的总方差最大,由下式计算:S 2=|OM 1|2+|OM 2|2+…+|OM i |2而所有样品距离PC1方差和为最小,由下式计算:Sd 2=|P 1M 1|2+|P 2M 2|2+…+|P i M i |2表1 代谢组学数据表图2 主成分的计算和分析原理示意图主成分的计算即是逐次寻找直线使所有样品距离该直线的最小二乘方差和最小、样品投影到PC1上的方差和最大。
经过一次计算后,产生的新数据为[|OM 1|、|OM 2|…|OM i |],这组数据包含了原始数据中的最大部分特征信息,称作第一主成分。
除此之外,因为仍有部分重要信息未被包含进来,可再找一条与第一主成分垂直的一维直线,选取方差最大那条进行数据投影即PC2(新Y 轴),得到第二主成分和数据[|ON 1|、|ON 2|…|ON i |]。
甚至第三、第四个主成分。
根据对模型的不同要求,一般说来选取的前面几个主成分,使其对总体方差的累计贡献率达到80%以上即可。
但对于需要进行准确描述/预测的特殊模型该比例要适当提高。
由上可知,主成分是原始变量按一定的权重·384·中国临床药理学与治疗学2010May ;15(5)线性组合之后而产生的新变量,这些变量具有如下特征:(1)每个主成分通常代表了一类具有相似特征的变量并体现了它们的综合特点;(2)第一个主成分包含了原始数据的最大差异,第二个之成分次之,以此类推;(3)这些主成分所在的直线都是相互垂直(正交)。
通常情况下用前面少数几个主成分即可最大限度地描述/解释数据特点/结构。
这样依据前两个或三个主成分做出平面或三维图,就可以直观地表现原始数据所代表的样本状态。
通过主成分分析所得到的图谱中,每一个样本在主成分图上的位置纯粹由不同色谱峰/变量的定量数据所决定。
而具有相似病理、生理状态的样本往往含有相近浓度的代谢产物,因而出现在主成分图的相近位置,反之亦然。
2 数据的权重值得重视的是,代谢组学数据在进行主成分分析之前,常需要对数据进行适当权重/转换。
因为代谢组学数据中所含有的变量通常取值范围大、变异也大。
如果直接采用主成分分析这种最大化差异投影的方法,往往造成绝对数值大、变异较大的变量在模型拟合中的贡献占主导地位,而绝对数值范围小、变异小的变量对模型的贡献也小。
为了消除这种偏重,可以对数据进行合理的权重(weighting)或缩放(scaling)。
虽然有多种权重的方法,但主成分分析以等方差法(UV,u2 nit variance)最为常用。
其方法是先计算每一个检测变量的标准偏差(standard deviation,Sk),获得权重因子为Sk的倒数(1/Sk),然后对此变量乘以1/Sk进行权重。
经过如此权重后使每个变量均具有相同的方差,不造成对变量的歧视,有利于数据的分析和比较。
在成功地“均方差”后,再计算每个变量的平均值,用每个变量数据减去该平均值就可以使数据均匀分布在0轴附近,这个过程称作平均值中心化(mean-centering)。
数据经过上述两个步骤处理后通常可以提高模型的有效性和预测能力。
以Simca-P软件为例,上述的数据预处理过程是其默认方式。
该软件还提供了其它权重方法,详见有关参考书籍。