当前位置:文档之家› 第七章_主成分分析

第七章_主成分分析


3. 根据前几个较大特征根的累计贡献确定主成分 的个数m(m<p),并确定取前m 个特征向量。 4. 得到以特征向量为系数的线性组合形成的主成分 F1,F2,…,Fm ,且它们的方差等于前几个较大的 特征根,即 Var(Fi)=λ i
42
综上所述,求综合变量(主成分)F1 ,..., Fm 的过程可知,主成分在几何图形中的含义就是旋转 后的新坐标系的主轴,它们彼此不相关(图形上为 垂直),其方向就是特征向量的方向,其方差贡献 就是相应的特征值。 因此,我们利用样本数据求解主成分的过程实 际上就转化为求相关阵或离差阵的特征值和特征向 量的过程。这是最关键的。
17
18
19
2 主成分的几何意义
20
主成分的几何意义(续1)
21
主成分的几何意义(续2)
从几何上看,寻找主成分的问题,就是 寻找多维空间中椭球体的主轴问题,从数学上 容易得到它们是Xl,X2,…,Xp 的相关矩阵中 p个较大特征值所对应的特征向量,这就是主 轴的向量 通常, 用雅可比 (Jacobi) 方法计算矩阵 的特征值和特征向量。
39
注意:这个变量的顺序是不对的,应该是x3, x1, x8, x7, x2, 40 x5, x4, x6 的顺序。这是书中的错误,请上机验证。
41
再次总结前面的内容
1. 先求出向量X的协方差阵∑或数据标准化处理后 的相关阵R 2. 求该矩阵特征值(由大到小排列)1 2 p 0 以及对应的单位特征向量 u1 ,..., u p
5
但是,PCA和FA所使用的协方差矩阵
不同于前面的均值-协方差分析。均值—协方差分 析仅仅度量的是所有变量形成的集合的总体变异性, 而没有特别指明其子集合(变量的线性组合)对总 变异性的贡献。
其中,主成分分析识别并排序了各线性组合在总变 异性中的贡献,每一个线性组合称为一个“主成 分”,并根据各主成分对总方差的解释贡献(用自 己的方差占总累计方差的比例来表示)来进行排序。
7
2. 主成分分析要达到的目标
第一个目标:从众多的变量中综合得出少数 几个相互无关的综合变量(即主成分),以 降低空间的维数;
这可从原始变量中有相互关系的变量进行线 性组合来完成,并且该组合作为一个整体与 其他变量的组合是线性无关的,这个组合出 的变量就是主成分。即主成分之间是无关的。
8
第二个目标:在第一个目标的基础上解释 数据或变量。
关于主成分分析的几点说明(续)
2. 主成分分析不要求数据来自于正态总体。 3. 单位特征向量,即主成分的系数向量 u ki 仅仅是 变换系数,与因子负荷量
( Fk , X i ) u ki k / ii
是不同的,因子负荷(也叫载荷)量反映的是第k个 主成分与第i个原始变量之间的相关系数。在解释第i 个原始变量对第k个主成分的重要性时,应当根据因 子负荷量,而不能是变换系数。
第7章 主成分分析 Principal Component Analysis
它是将多个指标简化为少数几个 相互无关的综合指标的统计方法, 其核心目的是降低维数。
所以,主成分分析是一种降维的 统计方法
1

多元分析处理的是多指标的问题。由于指 标太多,使得分析的复杂性增加。众多的要素 常常给模型的构造带来很大困难。 观察指标的增加本来是为了使研究过程趋 于完整,但反过来说,为使研究结果清晰明了 而一味增加观察指标又容易使人混乱不清。 由于在实际工作中,指标间经常具有一定 的相关性,故人们希望用较少的指标代替原来 较多的指标,但依然能反映原有的全部信息, 于是就产生了主成分分析、因子分析、对应分 析和典型相关分析等降维的统计方法。
2
概括的讲,多变量的数据结构的特征主要 有两个:
1. 多变量数据结构中的波动性,即用方差 (或协方差)大小来表示其信息量多寡。 常用主成分分析。
2.多变量间的相关性或共线性。如果两个 变量是完全相关的,则不需要第二个变量, 因为它不会带来更多的信息。常用因子分 析。
3
换言之,在众多的具有错综复杂相关性的 p个变量中,
14

不难想像,这些主成分之间不仅不相关,而且 它们的方差依次递减。 因此在实际工作中,常常挑选出前面几个方 差最大的主成分,虽然这样做会损失一部分信息, 但是由于它使我们抓住了主要矛盾,并从原始数 据中进一步提取了某些新的信息,因而在某些实 际问题的研究中得益要比损失大,这种既减少了 变量的数目,又抓住了主要矛盾的做法有利于问 题的分析和处理。
11
主成分分析的基本思想
主成分分析就是设法将原来众多的具有一 定相关性的指标(比如p个指标),重新组合成 一组新的、少数几个、相互无关的、综合指标 来代替原来的指标。通常数学上的处理,就是 将原来p个指标作线性组合,作为新的少数几 个综合指标. 但是这种线性组合,如果不加限制的话, 则可以有很多组合,我们应该如何去选取合适 的线性组合呢?
28
29
30
31
其中的S为样本离差阵,它作为总体协方差∑的一个估计,数 据经过标准化处理后,离差阵S 等于相关阵R
也就是说,在将数据标准化以后再去做,只需要求出 相关阵X’X的单位特征向量即可,该特征向量就是主 成分中的线性组合的系数 32
§7.4 计算步骤及实例
设有n个样品,每个样品观测p个指标,将 原始数据写成矩阵:
16
1.主成分分析的数学模型
用矩阵 X 的p个n维向量( 即p个指标向量) Xl,X2,…,Xp 作线性组合,且具有正交(即垂直) 特征。即,将它们综合成p个新指标,即 F1=a11X1+a12X2+...+a1pXp F2=a21X1+a22X2+...+a2pXp .................. Fp=ap1X1+ap2X2+...+appXp 这样确定的综合指标 F1,F2,…,Fp分别称做原指标 的第一,第二,…,第p主成分,且 F1,F2,…,Fp 在总方差中占的比例依次递减。
如果不经简化就直接把所有变量都拿来进行分析, 不可避免增加分析的难度和计算的复杂性;另外, 由于一些变量中包含的信息量(信息量的多少往往 可用其方差代表)较少,只能增加分析的难度,给 模型的构造带来很大困难。
因而就想到,在信息量损失尽可能少的前提下,首 先设法减少变量的个数,即降低空间的维数,然后, 再对少数的几个综合变量(它们从原始变量中提取 了绝大部分信息量)进行分析。 这就是降维的思想。主成分分析和因子分析就是这 样一类降维的统计技术。
x11 x 21 X xn1 x12 x22 xn 2 x1 p x2 p = ( X1 xnp
X2
, , X p )
33
34
35
36
37
38
注意:这个特征向量的分量已经按照由大到小重新排序 了,不是原来的x1, x2 ,…, x8 的顺序,请上机验证
4
二者的区别与联系
主成分分析(principal components analysis, 简 写为PCL)是侧重于分析多变量数据结构波动时的降 维技术; 因子分析(factor analysis, 简写为FA)则是侧重 分析多变量数据结构中变量相关性时的降维技术。 二者都依赖于p×p的协方差矩阵Σ,因为这个矩阵 在一定范围内包含了变量间的全部的有用信息。因 而这两种方法有时是重复的、或相互补充的。
43
关于主成分分析的几点说明
1. 求解主成分的过程实际就是对矩阵结构进行分 析的过程,也就是求解特征值和特征向量的过程。 实际问题分析中,是从向量X的协差阵出发,还是 从相关阵(在协差阵基础上除标准差)出发,虽然 过程是一样的,但其结果是不同的。 那么, 到底如何决定从哪一个矩阵出发呢? 一般地说,如果原始数据的数量级相差不大, 且量纲相同,可以从协差阵出发来求解。但如果数 据数量级差别较大或量纲不同,要考虑数据的标准 化,然后用相关阵求解主成分。但这也不是绝对的, 该问题现在还没有一个定论。 但两种方法计算的主成分一般不同,但结论一般不44 会发生矛盾。
因为PCA识别了变量的线性相关性,并依据它们对 原始数据总方差的贡献排了序,所以用PCA来解释 变量是有可能的。 因为,第一主成分是某种线性组合所产生的具有 最大方差的新变量,第二主成分是某种线性组合 所产生的具有次大方差的新变量,依次下去,…. 可见,可以用提取了绝大部分信息的少数几个主 成分来解释数据。也就是说,可以对变量进行归 组或分类,并进一步可赋予主成分的经济含义或 命名。
10
例如,某人做衣服时为了合体,要测量很多尺寸,如 身长、袖长、胸围、腰围、肩宽、肩厚等十多个指标, 但服装厂生产的服装尺码绝对不是型号如此非常非常 之多和齐全,甚至达到人人都适合的程度,而是从多 个指标中综合成少数几个有代表性的综合指标,作为 服装分类的型号. 例如,现行市面中的上衣中,只选择了身高、胸围两 个指标作为主要尺码即可,比如,165/92B、 170/100A,这样就能满足大多数人的体形需要。当然, 由于将10多个尺寸高度综合简化成2个尺寸,就肯定 不能满足所有人的体形,其中有一部分人的体形信息 就被忽略掉或损失了。 同理,裤子中的尺寸也已经综合简化成身高、腰围两 个尺寸,如,170/76;165/72,等等
9
§7.1 何谓主成分分析及其基本思想
主成分分析就是设法将原来的众多指标重 新组合成一组新的,相互无关的较少几个综合 指标来代替原来指标,同时,根据实际需要, 从中提取出的这少数几个综合指标又能尽可能 多地反映原来指标数据的信息。 这种将多个指标转化为少数的、相互无关 的综合指标的统计方法,叫做主成分分析,或 称为主分量分析。也是数学上处理降维的一种 技术方法。
22
§7.3 主成分的推导
23
相关主题