当前位置:文档之家› 主成分分析法概念及例题

主成分分析法概念及例题

主成分分析法[ 编辑 ] 什么是主成分分析法主成分分析也称 主分量分析 ,旨在利用降维的思想,把多 指标 转化为少数几个综合指标。

在 统计学 中,主成分分析( principal components analysis,PCA )是一种简化数据集的技 术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中, 使得任何数据投影的第一 大方差 在第一个坐标 (称为第一主成分 )上,第二大方差在第二个坐标 (第二主成分 )上,依次类推。

主成分分析经常用减少数据集的维数, 同时保持数据集的对 方差 贡献最大的特征。

这是通过保留 低阶主成分,忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是, 这也不是一定的,要视具体应用而定。

[ 编辑 ], PCA ) 又称: 主分量分析,主成分回归分析法主成分分析( principal components analysis主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。

这些涉及的因素一般称为指标,在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。

主成分分析正是适应这一要求产生的,是解决这类题的理想工具。

同样,在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。

如上所述,主成分分析法正是解决这一问题的理想工具。

因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。

根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。

这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。

上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。

对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。

的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。

由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。

例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。

经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。

[ 编辑]主成分分析法的基本原理主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。

[ 编辑]主成分分析的主要作用概括起来说,主成分分析主要由以下几个方面的作用1.主成分分析能降低所研究的数据空间的维数。

即用研究 m 维的 Y 空间代替 p 维的 X 空间(m < p ) ,而低维的 Y 空间代替 高维的 x 空间所损失的信息很少。

即:使只有一个主成分 Y l (即 m =1)时,这个 Y l 仍是使用全部 X 变量(p 个)得到的。

例如要计算 Yl 的均值也得使用全部 x 的均 值。

在所选的前 m 个主成分中,如果某个 X i 的系数全部近似于零的话,就可以把这个X i删除, 这也是一种删除多余变量的方法。

2.有时可通过因子负荷 a ij 的结论,弄清 X 变量间的某些关系3.多维数据的一种图形表示方法。

我们知道当维数大于 3 时便不能画出几何图形,多元统计研究的问题大都多于 3 个变量。

要把研究的问题用图形表示出来是不可能的。

然而, 经过主成 分分析后, 我们可以选取前两个主成分或其中某两个主成分, 根据主成分的得分, 画出 n 个 样品在二维平面上的分布况, 由图形可直观地看出各样品在主分量中的地位, 进而还可以对样本进行 分类处理,可以由图形发现远离大多数样本点的离群点。

4.由主成分分析法构造回归模型。

即把各主成分作为新自变量代替原来自变量 5.用主成分分析筛选回归变量。

回归变量的选择有着重的实际意义,为了使模型本身易于 做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。

用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。

[ 编辑 ] 主成分分析法的计算步骤1、原始指标数据的 标准化 采集 p 维随机向量 x = ( x 1, X 2,..., X p ) T )n 个样品 x i = (x i 1,x i 2,..., x ip ) T,i=1,2, ⋯,n ,n > p ,构造样本阵,对样本阵元进行如下标准化变换:2、对标准化阵 Z 求 相关系数 矩阵x 做 回归分 其中,得标准化阵 Z3、解样本相关矩阵R 的特征方程得p 个特征根, 确定主成分确定m 值,使信息的利用率达85%以上,对每个λ j, j=1,2,...,m,解方程组Rb = λj b 得单位特征向量4、将标准化后的指标变量转换为主成分U1 称为第一主成分, U2 称为第二主成分, ⋯, U p 称为第p 主成分。

5 、对m 个主成分进行综合评价对m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。

[ 编辑]主成分分析法的应用分析[ 编辑]案例一:主成分分析法在啤酒风味评价分析中的应用[1]啤酒是个多指标风味食品, 为了全面了解啤酒的风味, 啤酒企业开发了大量的检测方法用于分析啤酒的指标, 但是面对大量的指标数据, 大多数企业又感到茫然, 不知道如何利用这些大量的数据, 由上面的介绍可知,在这种情况下, 主成分分析法能够派上用场。

近年来,科研人员为了获得对啤酒风味更好的理解, 多元统计技术的使用越来越多。

这主要有以下两方面的原因: ① 在啤酒领域里, 几乎没有一个问题能够使用单变量(单指标)就能反映事物的属性, 例如啤酒的好坏、一致性, 不能通过双乙酰一个指标说明问题; ②另一个重要的原因就是, 近年来大量数学统计软件的不断出现和个人电脑的普及促进了多元统计分析技术的应用。

多元统计技术在啤酒风味研究中的一个重要任务就是找出啤酒风格和啤酒理化指标(风味成分指标也属于理化指标)之间的相关性。

例如可以用多元统计技术来找出啤酒的风味指标和啤酒风味的关系或不同啤酒的风味差异性。

经常使用的多元统计技术有聚类分析、判别分析、主成分分析和回归分析等。

其中主成分分析能够用于多指标产品, 主成分分析可以按照事物的相似性区分产品, 结果可用一维、二维或三维平面坐标图标示, 特别直观。

使用主成分分析法可以研究隐藏在不同变量背后的关系,而且根据这些变量能够获得主成分的背景解释。

鉴于主成分分析在啤酒风味质量应用中的强大作用, 本文简单介绍主成分分析的基本原理及其在啤酒一致性监控中的应用,以引起我国啤酒同行的广泛关注。

[ 编辑]1 材料与方法仪器HP6 890 毛细管气相色谱仪( 美国安捷伦公司),FID 检测器, HP 7694E 顶空自动进样器, HP 气相色谱化学工作站。

分析方法样品制备啤酒于5 ℃冷藏, 量取5 mL 酒液于20 mL 顶空瓶中, 添加g/L 正丁醇溶液mL, 加密封垫及铝盖密封,振荡混匀以供顶空气相色谱测定。

色谱条件毛细管色谱柱(DB- WAXETR3 0 m× mm, 膜厚μm);柱温:起始温度为35 ℃, 以10 ℃/min 程序升温至150 ℃, 再以20 ℃/min 升温到180 ℃, 并继续恒温5 min; 进样口温度150 ℃; 检测器温度200 ℃; 载气为高纯氮气, 流速为5 mL/min; 氢气30 mL/min; 空气400 mL/min; 采用分流进样,分流比为1∶1。

[ 编辑]2 主成分分析法的基本原理主成分分析法在啤酒研究中应用的必要性这里通过一个例子说明, 主成分分析在啤酒研究中的必要性。

假如有6 个啤酒样品, 分别标为A- F,每个啤酒样品用3 个指标来描述。

这些指标可以是仪器的分析数据、感官分析数据或两者都用。

为了便于讨论, 假设这3 个指标分别为苦味值(BU) 、DMS和酒精浓度。

为了解这6 个样品两两之间的相似性, 便于将这6 个样品进行分类, 可以把这6 个样品画在三维空间中, 见图1。

显然在这个简单的例子中, 这6 个样品倾向于形成两类, 即分别是A- C 和D- F 。

通过所测的指标可以解释这种分类, 例如, 第一组(A- C) 有较高的苦味值和较低的酒精浓度。

这个例子中只涉及到6 个样品和3 个指标。

但是实际上, 样品数量和指标数量都会很大, 例如, 有20 个指标, 这时, 样品不能在20 维的坐标系中画出。

为了解决多指标的样品的比较问题, 可以使用主成分分析法。

主成分分析法的基本原理主成分分析的第一步是将所有的指标数据进行标准化, 标准化的一般方法为: (x ij - x j mean) / δ j, 这里x ij 是样品j 的第i 个指标, x j mean 和δ j 是第j 个指标的平均值和标准偏差, 通过标准化后, 每个变量的平均值变成0, 标准偏差为1。

标准化的好处是可以消除不同指标间的量纲差异和数量级间的差异。

第二步求出指标间的相关矩阵, 通过相关矩阵, 可以确定具有高度相关性的指标, 这些指标间的协方差可以通过另一个变量替代, 这个变量叫作第一成分。

去掉第一成分后, 计算残留相关阵, 通过残留相关阵, 第二组高度相关的变量也可以发现, 它们的协方差可以用第二成分替代, 第二成分和第一成分是正交的。

相关主题