10.11895/j.issn.0253-3820.140062因子分析法在质谱成像数据分析中的应用陈一1 唐飞*1 李铁刚2 贺玖明2再帕尔㊃阿不力孜2 刘力涛3 王晓浩11(清华大学精密仪器系,北京100086)2(中国医学科学院药物研究所,北京100050)3(中国航天员科研训练中心人因工程重点实验室,北京10094)摘 要 对因子分析法在质谱成像数据分析中的应用进行了研究㊂本方法分析的质谱成像数据来源于空气动力辅助离子源质谱成像技术,所用样品为含有3种不同颜料(红色㊁蓝色㊁黑色)的笔迹样品㊂对该样品的成像数据进行因子分析后,将成像数据分为了背景㊁黑色㊁蓝色和红色因子㊂分析结果显示,m /z 443.2,478.4,322.2(344.2)分别在红色㊁蓝色㊁黑色因子中的贡献值远大于其它质荷比,因此是3种颜料的特征质荷比㊂此结果与实际情况相符,证明使用因子分析方法对质谱成像数据进行分析和特征提取是可行的㊂对因子分析与主成分分析的成像数据处理结果进行了比较,结果显示,因子分析可以更简单和定量地对特征质荷比进行取舍,在生物标志物提取㊁疾病诊断㊁药理分析等方面有较大的应用潜力㊂关键词 因子分析;质谱成像;空气动力辅助离子源;多元统计 2014-01-21收稿;2014-04-21接受本文系国家重大科学仪器设备开发专项(Nos.2011YQ17006702,2011YQ14015010)㊁国家自然科学基金(No.81102413)㊁深圳市科技研发资金基础研究计划(No.JC201005280634A)项目资助*E-mail:tangf@ 1 引 言近年来,质谱成像技术(Imaging mass spectrometry,IMS)作为质谱研究中的热点领域迅速发展,在了解组织病理特征㊁疾病诊断㊁药物疗效及发现生物标志物等临床应用中发挥越来越重要的作用[1~5]㊂随着质谱成像技术的不断发展[6~8],其质量分辨率和空间分辨率都不断提高,这导致原始成像的数据量变得非常庞大,通过人工筛选的方式对其进行处理已经越来越难㊂近年来,研究人员开始使用多元统计的方法[9~12],对质谱成像数据进行降维和特征提取㊂多元统计是一类数学方法的统称,如何从中找出一个适合质谱成像数据分析应用的具体模型,成为质谱成像领域的研究内容之一[13,14]㊂目前,常用的应用于质谱成像数据处理的多元统计方法包括主成分分析(Principal component analy-sis,PCA)[15,16]㊁聚类分析(Hierarchical cluster analysis,HCA)[17],偏最小二乘判别分析(Partial least square discriminate analysis,PLS-DA)[18]等,这些方法成功地对大量质谱数据进行了降维和特征提取,推进了质谱成像技术在各领域的应用㊂但是作为统计学的方法,这些常用方法所得到的结果数学意义偏多,往往较难对其给出符合实际意义的解释㊂另外,相比使用其它技术确立的生物标志物,这些方法提取的标志物(质荷比)通常较少,有可能遗漏掉有重要意义的特殊质荷比㊂本研究基于空气动力辅助离子源质谱成像技术(Air flow-assisted ionization imaging mass spectrome-try,AFAI-IMS)[19],对因子分析(Factor analysis,FA)在质谱成像数据分析中应用的方法进行了研究㊂选取一组混合笔迹样品进行了质谱成像分析,获得了原始质谱成像数据,使用因子分析法对该数据进行统计分析,将成像数据分为了背景㊁黑色㊁蓝色和红色因子㊂分析结果显示,m /z 443.2,478.4,322.2(344.2)分别在红色㊁蓝色㊁黑色因子中的贡献值远大于其它质荷比,因此是3种颜料的特征质荷比㊂此结果与实际情况相符,证明使用因子分析方法对质谱成像数据进行分析和特征提取是可行的㊂本研究还对因子分析与主成分分析的成像数据处理结果进行了对比,结果表明,因子分析可以更简单和定量地对质荷比进行正确和全面的取舍,判断和提取出多个质荷比作为目标样品成分的综合标志物㊂相比目前常用的多元统计方法,因子分析法可以有效地对特殊因子进行提取和反应,在生物标志物第42卷2014年8月 分析化学(FENXI HUAXUE) 研究报告Chinese Journal of Analytical Chemistry 第8期1099~11030011分析化学第42卷提取㊁疾病诊断㊁药理分析等方面有较大的应用潜力㊂2 实验部分2.1 仪器与样品质谱成像数据来源于空气动力辅助离子源质谱成像技术㊂实验使用QTRAP5500质谱仪(美国AB 公司),其离子源使用空气动力辅助离子源(air flow-assisted ion source,AFAI)代替[20]㊂使用的样品如图1A所示,3种颜色(红色㊁蓝色和黑色)的颜料在载玻片上书写了一些字符与线条㊂样品中,苏丹明B(m/z443.2)是红色颜料的主要成分,碱性蓝7(m/z478.4)是蓝色颜料的主要成分[5]㊂另外,通过对谱图进行分析,确定m/z322.2([M﹢H]﹢)和m/z344.2([M﹢Na]﹢)的物质为黑色颜料的主要成分㊂样品图案的面积为130mmˑ40mm㊂2.2 实验方法AFAI离子源中ESI喷针的喷雾气体为N2,流速为2L/min㊂喷雾溶液为含0.1%甲酸-甲醇和水混合液(4:1,V/V),流速为10μL/min㊂ESI喷针上加载有﹢5000V的直流电压㊂AFAI源辅助空气的流速为40L/min[18]㊂样品被逐点扫描,AFAI-IMS的空间分辨率设置为0.5mm,质谱仪数据采集的质量数范围为100~999Da㊂在质谱成像的应用中,因子分析的目的是用少数几个假想的因子反映原始质谱成像数据中的数据(成分)构成㊂因子分析需要预先设置期望将原样本分类为多少个因子,因子越多,分类越细,数据降维(数据量减小)后所包含的信息越完整㊂3 结果与讨论3.1 对样品进行因子分析对样品进行AFAI-IMS质谱成像数据采集,并对采集到数据进行因子分析㊂根据上文所述,由于需要预先设定将原始数据分类为多少个因子,因此,对不同数量因子的分析结果进行了初步计算㊂结果显示,将原始数据分类为4个因子将保留99.6%的信息,而设置更多的因子,保留信息增加的幅度较小,因此,将成像数据分类为4个因子㊂应用因子分析方法,原始质谱成像数据经过处理后可以获得4个因子,为了探索不同因子所代表的含义,以达到使用这4个因子解释原始质谱数据基本结构的目的,计算了不同因子在样品所有采样点上的得分值㊂根据因子分析的数学特性,该得分值越大,说明该因子对该样品点的影响越大㊂类似于质谱成像以某个质荷比在样品点上获得的离子信号强度作为质谱成像图的颜色值,本研究以对应样品点的因子得分值作为颜色值,完成不同因子在不同样品点上的因子得分图,如图1(E~H)所示㊂对比图1A和图1E可以发现,因子1得分值大的样品点的分布同有笔迹的样品点的分布恰好相反,即同背景的分布一致㊂根据因子得分的数学意义,因子1对背景样品点的影响大,对有笔迹的样品点影响小,这说明因子1主要影响了背景成分,因此,可以命名因子1为 背景因子 ㊂同理将图1A分别与图1F㊁图1G㊁图1H对比,可以发现,因子2,3,4在样品上影响较大点的分布分别与黑色㊁蓝色㊁红色笔迹的分布相同,因此,可以将因子2,3,4分别命名为 黑色因子 ㊁ 蓝色因子 以及 红色因子 ㊂使用因子分析得到的每个因子在数学上是一个1ˑn的矩阵,n与质谱扫描范围内的质荷比的个数相同㊂此因子矩阵中的每个值与不同的质荷比一一对应,代表了该质荷比在该因子中的影响大小㊂具体而言,该贡献值越大,说明对应的质荷比在该因子中越重要,对该因子影响越大㊂质谱范围内的质荷比在4个因子中的贡献值如表1所示(仅显示得分较大的前几项)㊂从表1可知,m/z279.2,322.2,478.4和443.2分别在 背景因子 ㊁ 黑色因子 ㊁ 蓝色因子 ㊁ 红色因子 中贡献值最大,是4个因子最主要的特征质荷比㊂因此,上述质荷比分别是背景样品㊁黑色颜料㊁蓝色颜料㊁红色颜料的主要特征质荷比,这与已知情况吻合,将上述特征质荷比作为目标质荷比进行质谱成像后的结果如图1B ~图1D 所示㊂上述结果表明,使用本方法对特征质荷比进行提取是可行的㊂图1 样品照片㊁特殊质荷比的质谱成像结果以及不同因子在样品上的得分值图像Fig.1 Optical image of sample,IMS result of special m /z and the score image of different factors 表1 质谱范围内的质荷比在不同因子中的贡献值(影响力)大小Table 1 Scores (influence)of different m /z on different factor 因子1(背景因子)Factor 1(background factor)质荷比m /z 得分值Scores 因子2(黑色因子)Factor 2(black factor)质荷比m /z 得分值Scores 因子3(蓝色因子)Factor 3(blue factor)质荷比m /z 得分值Scores 因子4(红色因子)Factor 4(red factor)质荷比m /z 得分值Scores 279.276.7322.281.4478.4107.6443.2125.3301.167.3344.236.4479.425.1444.217.1205.131.1279.218.2240.219.5301.17.2149.017.0323.216.9279.28.4279.2 5.2280.210.6301.17.9301.17.1205.1 3.5通过对比发现,图1C 与1G㊁图1D 与1H 都高度一致,但图1B 与1F 则不太相同㊂通过对表1数据分析发现,图1C 与1G 所代表的蓝色因子中,m /z 478.4得分值最大为107.6,是得分值第二的m /z 479.4的4.3倍;同理,图1D 与1H 所代表的的红色因子中,m /z 443.2得分值最大为125.3,是得分值第二的m /z 444.2的7.3倍㊂由于m /z 479.4与m /z 443.2的得分值在各自的因子中占较大比重,因此这两种质荷比能够代表对应的因子单独作为蓝色颜料和红色颜料的标志物㊂而黑色因子中m /z 322.2的得分值最高为81.4,是得分第二的m /z 344.2得分值的2倍,这说明这两种质荷比对黑色因子的影响相差不大㊂因此,不能仅使用m /z 322.2作为黑色颜料的标志物,而应该使用这两种质荷比作为黑色颜料的综合标志物㊂此结果与谱图分析一致,m /z 344.2为[M﹢Na]﹢㊂3.2 因子分析与主成分分析的对比主成分分析是目前最常用的对质谱成像数据进行多元数据统计方法㊂本研究对样品的原始质谱成像数据进行了主成分分析,并与因子分析结果对比,所得结果如图2所示㊂在主成分分析中,选择在主成分上得分值大的点作为特征点,该点对应的质荷比为特征质荷比㊂如图2,可以较容易地以得分较大作为提取依据,选出特征质荷比m /z 279.2和443.2,但样品另外两个特征质荷比m /z 478.4和322.2的提取较难,而m /z 344.2更是很难被提取出来㊂这需要进行更深入的分析㊂ 因子分析不仅可以如上文所述对分析结果(各个因子)给出清晰的定义,更为重要的,还可以对不1011第8期陈一等:因子分析法在质谱成像数据分析中的应用图2 样品成像数据的主成分分析实验结果Fig.2 PCA result of sample imaging mass spectrometricdata 同质荷比在因子数组中的比重进行定量分析,并据此对特征质荷比进行正确和全面的取舍㊂例如,由表1可知,m /z 344.2在黑色因子中的贡献值大小排在第二,与排在第一的m /z 322.2的贡献值相差不大,因此,m /z 344.2不能被忽略掉㊂4 结 论对因子分析方法在质谱成像数据分析中的应用进行了研究,证明因子分析可以对质谱成像数据进行降维和特征提取㊂所用原始质谱成像数据由AFAI-IMS 技术获得,使用因子分析对该数据进行分析后,质谱成像数据可以使用4个因子进行分类㊂每个样品成分,即每种颜料样品依赖一种因子的影响,能清晰地观察各个因子在整个样品上的作用㊂确定不同因子的意义后,通过观察不同质荷比在因子中的贡献值大小,成功提取出了样品成分的特征质荷比㊂与目前常用的主成分分析等多元统计方法相比,因子分析能得到符合实际背景和意义的结果㊂因子分析法可以对不同质荷比在因子数组中的比重进行定量分析,并据此对特征质荷比进行正确和全面的取舍,有利于提取影响较低,但不可忽略的特征质荷比㊂使用因子分析的方法,可以提取多种质荷比作为样品成分的综合标志物,在癌症标志物提取等样品成分复杂的领域中有较大的应用潜力㊂References 1 Eberlin L S,Dill A L,Golby A J,Ligon K L,Wiseman J M,Cooks R G,Agar N Y R.Angew.Chem.Int.Ed.Engl.,2010,49(34):5953-59562 Pevsner P H,Melamed J,Remsen T,Kogos A,Francois F,Kessler P,Stern A,Anand S.Biomakers Med.,2009,3(1):55-693 Seeley E H,Caprioli R M.Trends Biotechnol.,2011,29(3):136-1434 YANG Shui-Ping,CHEN Huan-Wen,YANG Yu-Ling,HU Bin,ZHANG Xie,ZHOU Yu-Fang,ZHANG Li-Li,GU Hai-Wei.Chinese J.Anal.Chem.,2009,37(3):315-318杨水平,陈焕文,杨宇玲,胡斌,张燮,周瑜芬,张丽丽,顾海威.分析化学,2009,37(3):315-3185 WEI Kai-Hua,ZHANG Xue-Min,YANG Song-Cheng.Journal of Instrumental Analysis ,2007,26(S1):12-14魏开华,张学敏,杨松成.分析测试学报,2007,26(S1):12-146 Ifa D R,Wiseman J M,Song Q,Cooks R G.Int.J.Mass.Spectrom.,2007,259(1):8-157 Harris G A,Nyadong L,Fernandez F M.Analyst ,2008,133(10):1297-13018 YANG Shui-Ping,HU Bin,LI Jian-Qiang,HAN Jing,ZHANG Xie,CHEN Huan-Wen.Chinese J.Anal.Chem.,2009,37(5):691-694杨水平,胡斌,李建强,韩京,张燮,陈焕文.分析化学,2009,37(5):691-6949 Jones E A,Remoortere A,Zeijl R J M,Hogendoorn P C W,Bovée J V M G,Deelder A M,McDonnell L A.PloS one ,2011,6(1):1-1410 Bonnel D,Longuespee R,Franck J,Roudbaraki M,Gosset P,Day R,Salzet M,Fournier I.Anal.Bioanal.Chem.,2011,401(1):149-16511 Reindl W,Bowen B P,Balamotis M A,Greenc J E,Northen T R.Integr.Biol.,2011,3(4):460-46712 Dill A L,Eberlin L S,Zheng C,Costa A B,Ifa D R,Cheng L,Masterson T A,Koch M O,Vitek O,Cooks R G.Anal.Bioanal.Chem.,2010,398(7):2969-297813 Fonville J M,Carter C,Cloarec O,Nicholson J K,Lindon J C,Bunch J,Holmes E.Anal.Chem.,2012,84(3):1310-131914 Trede D,Kobarg J H,Oetjen J,Thiele H,Maass P,Alexandrov T.J.Integrative Bioinformatics ,2012,9(1):1892011 分析化学第42卷15 Pan Z Z,Gu H W,Talaty N,Chen H W,Shanaiah N,Hainline B E,Cooks R G,Raftery D.Anal.Bioanal.Chem.,2007,387(2):539-54916 Gu H W,Pan Z Z,Xi B W,Asiago V,Musselman B,Raftery D.Anal.Chim.Acta ,2011,686(1):57-6317 Bonnel D,Longuespee R,Franck J,Roudbaraki M,Gosset P,Day R,Salzet M,Fournier I.Anal.Bioanal.Chem.,2011,401(1):149-16518 Pirro V,Eberlin L S,Oliveri P,Cooks R G.Analyst ,2012,137(10):2374-238019 Luo Z,He J,Chen Y,He J,Gong T,Tang F,Wang X,Zhang R,Huang L,Zhang L,Lv H,Ma S,Fu Z,Chen X,Yu S,Abliz Z.Anal.Chem.,2013,85(5):2977-298220 He J,Tang F,Luo Z,Chen Y,Xu J,Zhang R,Wang X,Abliz Z.Rapid Commun.Mass Spectrom.,2011,25(7):843-850Application of Factor Analysis in Imaging Mass Spectrometric Data Analysis CHENYi 1,TANG Fei *1,LI Tie-Gang 2,HE Jiu-Ming 2,ABLIZ Zeper 2,LIU Li-Tao 3,WANG Xiao-Hao 11(Department of Precision Instrument ,Tsinghua University ,Beijing 100084,China )2(Institute of Materia Medica ,Chinese Academy of Medical Sciences and Peking Union Medical College ,Beijing 100050,China )3(National Key Laboratory of Human Factors Engineering ,China Astronaut Research and Training Center ,Beijing 100094,China )AbstractThe factor analysis method applied in imaging mass spectrometry data analysis was studied.The imaging massspectrometric data were obtained by air flow-assisted ionization imaging mass spectrometry method.Thesample contained some symbols which were drawn on slides using three different inks (red,blue,black).The imaging data analyzed by factor analysis method were divided into the background,black,blue andredfactor.The results showed that the scores of m /z =443.2,478.4,322.2(344.2)in red,blue,black factor respectively were much larger than others.Therefore,they were markers of three inks.The results accorded withactual condition well and proved that the application of factor analysis in imaging mass spectrometric data analysis was feasible.The data analysis results of factor analysis and principal component analysis werecompared.The results showed that the target sample markers could be extracted by factor analysis simplyand quantitatively.It was of great potential in biomarker extraction,diseases diagnose and pharmacological analysis.KeywordsFactor analysis;Imaging mass spectrometry;Air flow-assisted ionization;Multiple statistical analysis (Received 21January 2014;accepted 21April 2014)This work wassupported by the National Instrumentation Programmme (Nos.2011YQ17006702,2011YQ14015010),the National Natural Science Foundation of China (No.81102413),and the Fundamental Research Program of Shenzhen (No.JC201005280634A)3011第8期陈一等:因子分析法在质谱成像数据分析中的应用因子分析法在质谱成像数据分析中的应用作者:陈一, 唐飞, 李铁刚, 贺玖明, 再帕尔·阿不力孜, 刘力涛, 王晓浩, CHEN Yi , TANG Fei, LI Tie-Gang, HE Jiu-Ming, ABLIZ Zeper, LIU Li-Tao, WANGXiao-Hao作者单位:陈一,唐飞,王晓浩,CHEN Yi,TANG Fei,WANG Xiao-Hao(清华大学精密仪器系,北京,100086), 李铁刚,贺玖明,再帕尔·阿不力孜,LI Tie-Gang,HE Jiu-Ming,ABLIZZeper(中国医学科学院药物研究所,北京,100050), 刘力涛,LIU Li-Tao(中国航天员科研训练中心人因工程重点实验室,北京10094)刊名:分析化学英文刊名:Chinese Journal of Analytical Chemistry年,卷(期):2014(8)引用本文格式:陈一.唐飞.李铁刚.贺玖明.再帕尔·阿不力孜.刘力涛.王晓浩.CHEN Yi.TANG Fei.LI Tie-Gang.HE Jiu-Ming.ABLIZ Zeper.LIU Li-Tao.WANG Xiao-Hao因子分析法在质谱成像数据分析中的应用[期刊论文]-分析化学 2014(8)。