Equation Chapter 1 Section 1 Array《多元统计分析》Multivariate Statistical Analysis;^)主讲:统计学院许启发()统计学院应用统计学教研室School of Statistics2004年9月第三章 主成分分析【教学目的】1.让学生了解主成分分析的背景、基本思想; 2.掌握主成分分析的基本原理与方法; 3.掌握主成分分析的操作步骤和基本过程; 4.]5.学会应用主成分分析解决实际问题。
【教学重点】1.主成分分析的几何意义; 2.主成分分析的基本原理。
§1 概述一、什么是主成分分析1.研究背景在实际问题的研究中,为了全面分析问题,往往涉及众多有关的变量。
但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。
一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同。
实际上,在很多情况下,众多变量间有一定的相关关系,人们希望利用这种相关性对这些变量加以“改造”,用为数较少的新变量来反映原变量所提供的大部分信息,通过对新变量的分析达到解决问题的目的。
主成分分析及典型相关分析便是在这种降维的思维下产生的处理高维数据的统计方法。
本章主要介绍主成分分析。
主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。
当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。
>概括地说,主成分分析(principal component analysis )就是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法,而这些综合指标能够反映原始指标的绝大部分信息,它们通常表现为原始几个指标的线性组合。
主成分概念最早是由Karl Parson 于1901年引进的,1933年Hotelling 把这个概念推广到随机向量。
在实践中,主成分分析既可以单独使用,也可和其它方法结合使用,如主成分回归可克服多重共线性。
2.基本思想及意义哲学理念:抓住问题的主要矛盾。
主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替。
通常数学上的处理就是将这p 个指标进行线性组合作为新的综合指标。
问题是:这样的线性组合会很多,如何选择如果将选取的第一个线性组合即第一个综合指标记为1F ,希望它能尽可能多地反映原来指标的信息,即1()Var F 越大,1F 所包含的原指标信息①就越多,1F 的方差应该最大,称1F 为第一主成分。
如果第一主成分1F 不足以代表原来p 个指标的信息,再考虑选取2F 即选择第二个线性组合。
为了有效地反映原来的信息,1F 中已包含的信息,无须出现在2F 中,即12(,)0Cov F F ,称2F 为第二主成分。
仿此可以得到p 个主成分。
①度量信息最经典的方差是方差。
我们可以发现这些主成分之间互不相关且方差递减,即数据的信息包含在前若干个主成分中,因而只需挑选前几个主成分就基本上反映了原始指标的信息。
这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的解决。
二、主成分分析的数学模型及几何意义[1.数学模型(总体主成分)设有n 个样品,每个样品观测p 个指标:12,,,p X X X ,得到原始数据资料阵:()11121212221212,,,p p p n n np X X X X X X X X XX X X X ⎛⎫⎪⎪= ⎪ ⎪ ⎪⎝⎭。
其中,12i i i ni X X X X ⎛⎫⎪ ⎪= ⎪ ⎪⎝⎭。
其协方差矩阵为()[][]ijp pE X EX X EX σ⨯'∑--它是一个p 阶半正定矩阵。
设()12,,,(1,2,,)i i i pi a a a a i p '==为p 个常数向量,考虑如下的线性组合1111121212212122221122p p p p p p p p pp p F a X a X a X a X F a X a X a X a X F a X a X a X a X '⎧=+++⎪'=+++⎪⎨⎪⎪'=+++⎩简记为1122i i i i pi pF a X a X a X a X '=+++(1,2,,)i p =易知有()()i i i i Var F Var a X a a ''=∑(,)(,),i j i j i jCov F F Cov a X a X a a i j '''==∑≠(,1,2,,)i j p =…如果我们希望用1F 代替原来p 个变量12,,,p X X X ,这就要求1F 尽可能地反映原p 个变量的信息。
这里,“信息”用1F 的方差来度量,即1()Var F 越大,表示1F 所含的12,,,p X X X 中的信息越多。
但由方差的表达式可知,必须对i a 加以限制,否则1()Var F 无界。
而最方便的限制是要求所有i a 具有单位长度,即1i i a a '=因此,我们希望在约束条件111a a '=之下,求1a 使1()Var F 达到最大,由此1a 所确定的随机变量11F a X '=称为12,,,p X X X 的第一主成分。
如果第一主成分1F 还不足以反映原变量的信息,考虑采用2F 。
为了有效地反映原变量的信息,1F 中已有的信息就不必要再包含在2F 中,用统计的语言来讲,要求1F 与2F 不相关,即1212(,)0Cov F F a a '=∑= 于是,在约束条件221a a '=及120a a '∑=之下,求2a 使2()Var F 达到最大,由此2a 所确定的随机变量22F a X '=称为12,,,p X X X 的第二主成分。
一般地,在约束条件1i i a a '=及()(,)01,2,,1i k i k Cov F F a a k i '=∑==-之下,求i a 使()i Var F 达到最大,由此i a 所确定的随机变量i i F a X '=称为12,,,p X X X 的第i 主成分。
2.主成分的几何意义从代数学观点看主成分就是12,,,p X X X 的一些特殊的线性组合,而在几何上这些线性组合正是把12,,,p X X X 构成的坐标系旋转产生的新的坐标系,新坐标系使之通过样品方差最大化方向。
下面以二元正态变量为例说明主成分的几何意义。
当2p =时,原变量是12,X X ,设122(,)~(,)X X X N μ'=∑,它们有下图的相关关系:}对于二元正态变量,n 个点的散布大致是一个椭圆,在其长轴方向取坐标轴1F ,在其短轴方向取坐标轴2F 。
这相当于在平面上作一坐标变换,即按逆时针方向旋转θ角度,得112212cos sin sin cos F X X F X X θθθθ=+⎧⎨=-+⎩ 或1122cos sin sin cos F X U X F X θθθθ⎛⎫⎛⎫⎛⎫= ⎪ ⎪ ⎪-⎝⎭⎝⎭⎝⎭这里的U 为正交矩阵,即U U I '=。
因此,在12F oF 坐标系中有如下性质:}(1)1F 和2F 为12,X X 的线性组合; (2)1F 与2F 不相关;(3)1X 与2X 的总方差大部分归结为1F 轴上,而2F 轴上很少。
几何意义:一般情况,p 个变量组成p 维空间,n 个样品点就是p 维空间的n 个点,对p 元正态分布变量来说,找主成分的问题就是找p 维空间中椭球体的主轴问题。
§2 主成分的推导及性质这里首先从理论上给出总体主成分,探讨总体主成分的性质,而后再给出样本主成分。
一、总体主成分1.总体主成分的推导 设1122p p Fa X a X a X a X '=+++,其中()12,,,p a a a a '=且1a a '=,()12,,,p X X X X '=。
求主成分的过程就是寻找X 的线性组合a X ',使相应的方差尽可能地大的过程。
()()()()Var F Var a X a E X EX X EX a a a ''''=--=∑:设协差阵∑的特征根为120p λλλ≥≥≥>,相应的正交单位特征向量为()12,,,p U U U U '=,则11p i i i i p U U U U λλλ=⎛⎫ ⎪''∑==⎪ ⎪⎝⎭∑因此,()()()()()21111ppppi i i i i i i i i i i i i i i a a a U U a a U U a a U a U a U λλλλ===='''''''''∑====∑∑∑∑所以,()()()2111111pi i a a a U a U a U a UU a a a λλλλλ=''''''''∑≤====∑而事实上,当1a U =时有()()()2111111111111p pi i i i i i i i U U U U U U U U U U U U λλλλ==⎛⎫''''''∑==== ⎪⎝⎭∑∑由此可知,在约束条件1a a '=之下,当1a U =时,使()Var a X a a ''=∑达到最大值,且1111()Var U X U U λ''=∑=。
同理可求()i i i i Var U X U U λ''=∑=,且()()()11(,)0p p i j i j i k k k j k i k k j k k Cov U X U X U U U U U U U U U U i j λλ==⎡⎤⎡⎤'''''''=∑===≠⎢⎥⎢⎥⎣⎦⎣⎦∑∑【结论:()12,,,p X X X X '=的主成分就是以∑的特征向量为系数的线性组合,它们互不相关,其方差为∑的特征根,主成分的名次是按照特征根大小的顺序排列的。
2.总体主成分的性质性质1:设F a X '=为X 的主成分,则其协差阵为由X 的协差所对应特征根组成的对角阵。
性质2:1111()()ppppi ii i i i i i i Var X Var F σλ=======∑∑∑∑。