第5章主成分分析与经验正交分解5.1主分量分析的数学模型当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机 变量,是很必要的。
首先我们看一个例子。
例5.1 为了调查学生的身材状况,可以测量他们的身高(1x )、体重(2x )、胸围(3x )和坐高(4x )。
可是用这4个指标表达学生身材状况不方便。
但若用1y =3.63561x +3.32422x +2.47703x +2.16504x表示学生身体魁梧程度;用2y =-3.97392x +1.35821x +3.73233x -1.57294x表示学生胖瘦程度。
则这两个指标(1y ,2y )很好概括了4个指标(1x -4x )。
例中,学生不同,身高(1x )、体重(2x )、胸围(3x )和坐高(4x )不同;(1x , 2x , 3x ,4x )是4维随机向量;1y ,2y 是他们的2个线性组合,1y ,2y 能很好表示1x , 2x , 3x ,4x 的特性。
类似的问题在许多地方出现:可观测的随机变量很多,需要选出所有所有随机变量的少数线性组合,使之尽可能刻划全部随机变量的特性,选出的线性组合就是诸多随机变量的主成分,又称为主分量。
寻求随机向量主成分,并加以解释,称为主成分分析,又称为主分量分析。
主成分分析在许多学科中都有应用,细节可参看张尧廷(1991)、Richard(2003),主成分分析在气象等科学中称为PCA 方法,见吴洪宝(2005)。
主成分分析的数学模型是:对于随机向量X ,想选一些常数向量i c ,用X c i '尽可能多反映随机向量X 的主要信息,也即)'(X c D i 尽量大。
但是i c 的模可以无限增大,从而使)'(X c D i 无限变大,这是我们不希望的;于是限定i c 模的大小,而改变i c 各分量的比例,使)'(X c D i 最大;通常取i c 的模为1最方便。
定义5.1 设随机向量)',...(1p x x X =二阶矩存在,若常数向量1c ,在条件c =1下 使)'(X c D 最大,则称X c Y '11=是X 的第一主成分或第一主分量。
由定义可见,1Y 尽可能多地反映原来p 个随机变量变化的信息。
但是一个主成分往往不能完全反映随机向量特色,必须建立其它主成分,它们也应当最能反映随机向量变化,而且他们应当与第一主成分不相关(不包含1Y 的信息)。
定义5.2 若常数向量c=2c 在条件c =l ,0)',cov(1=X c Y 下,使)'(X c D 最大, 则称X c Y '22=是 X 的第二主成分;若常数向量c=3c 在条件c =l ,0)',cov(1=X c Y ,0)',cov(2=X c Y 下,使)'(X c D 最大,则称X c Y '33=是 X 的第三主成分;…。
当随机向量方差已知时,定理5.1给出主成分的计算公式。
定理5.1 设随机向量)',...(1p X X X =方差存在为∑。
∑特征值从大到小为p λλλ≥≥≥...21,j λ对应的彼此正交单位特征向量为j c 。
则X 的第j 个主成分为 j c 与X 的内积,即X c Y j j '= (5.1)且i i Y Var λ=)(证明:任取p维单位向量c,必有∑∑==1,2jjj tc t c 。
于是∑=∑=j j t c c X c D λ2')'(,而在条件∑=12j t 下,当11=t ,0...2===p t t 即1c c =时,∑=j j t X c D λ2)'(最大,所以X 的第一主成分是1c 与X 的内积X c Y '11=。
由条件0)',cov(1=X c Y ,可得0''11111===∑t c c c c λλ,于是X c t X c j pj j ''2∑==,从而∑==∑=pj j j t c c X c D 22')'(λ;所以在条件c =1、0)',cov(1=X c Y 下,当2c c =时,c c X c D ∑=')'(最大,所以X 的第2个主成分为2c 与X 的内积X c Y '22=。
对第三,第四……主成分同样可证。
由证明过程可见:i i Y Var λ=)(。
它称为第i 个主成分的方差贡献,表示第i 个主成分变化大小,从而反映第i 个主成分提供的信息的大小。
例5.2 设)',,(321X X X X =,且⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=∑=210131011)(X Var则1λ=3.87939,'1c =[0.293128,-0.84403,-0.449099]2λ=1.6527,'2c =[0.449099,-0.293128,0.84403] 3λ=0.467911,'3c =[0.84403,0.449099,-0.293128]所以第一主成分就是X c Y '11==0.2931281X -0.84403 2X -0.4490993X ;第二主成分就是X c Y '22==0.4490991X -0.2931282X +0.844033X ; 第三主成分就是X c Y '33==0.844031X +0.4490992X -0.2931283X 。
它们的方差贡献分别是87939.3)(11==λY Var ;6527.1)(22==λY Var ;467911.0)(33==λY Var 。
定义5.3 ∑ji λλ/称为主成分i y 的方差贡献率;∑∑=j i ki λλ/1称为前k 个主成分的累计方差贡献率;i y 与X 第k 个分量的相关系数),(k i x y ρ称为因子负荷量。
当某个主成分的方差贡献率很小时,认为它提供的信息很少,可以略去此主成分。
通常取q,使前q 个主成分的累计方差贡献率达到70%-80%,然后只考虑前q 个主分量,用它们解释随机向量X 的特性,其余主成分认为是观测误差等随机因素造成的。
在实际问题中,X 的每一分量可取不同单位,单位取小时(例如长度单位取毫米,甚至微米)该分量的方差会变大,从而在主成分中变得突出;而单位选取不应影响主成分。
为了避免量纲对主成分的影响。
常常将随机变量都标化,即令)(/)(*i i i i X Var EX X X -=,它就是无量纲量,令*)'*,...(*1p X X X =再求X*的主成分,即标准化后的主成分。
将)(/)(*i i i i X Var EX X X -=代入,可求随机向量X 的主成分。
容易证明定理5.2 设随机向量X 的相关阵为ρ,ρ特征值为*...*1p λλ≥≥,j λ对应的彼此正交单位特征向量为*j c ,则标准化后X 的第j 个主成分是***T X c Y jj =。
因此,标准化后的主成分称为由相关阵决定的主成分。
直接由随机向量的协方差阵算出的主成分称为由协差阵决定的主成分。
同样一组随机变量,用它们的协差阵和相关阵求出的主成分是不一样的。
这是因为优化的准则(目标函数)不同:前者要求)'(X c D =c c ∑'最大,而后者要求*)'(X c D ==c F F c 2/12/1'--∑最大,其中⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=)(0...)(0)(21p X D X D X D F 。
例 5.3 (协差阵和相关阵决定的主成分不同)设随机变量)',(21X X X =;其协方差阵是⎥⎦⎤⎢⎣⎡=∑100221,特征值和特征向量是)'9998.0,0202.0(,04.10011==c λ,)'0202.0,9998.0(,9596.022-==c λ。
因而由协方差阵决定的主成分是:2119998.00202.0X X Y +=,2120202.09998.0Y Y Y -=。
但随机变量X 标准化后得到)'1.01.0,(*)'*,(*221121μμ--==X X X X X ;其中2211,μμ==EX EX 。
X*的协差阵即X 的相关阵是⎥⎦⎤⎢⎣⎡=12.02.01ρ,其特征值和特征向量是 )'7071.0,7071.0(*,2000.1*11==c λ,)'7071.0,7071.0(*,8000.0*22-==c λ从而由相关阵决定的主成分是:)(07071.0)(7071.0*7071.0*7071.0*2211211μμ-+-=+=X X X X Y )(07071.0)(7071.0*7071.0*7071.0*2211212μμ---=-=X X X X Y 。
由于主成分由方差决定,可以略去常数,因而由相关阵得到的主成分可写为:21107071.07071.0*X X Y += 21207071.07071.0*X X Y -=,可见由协方差阵与相关阵决定的主成分不同。
5.2 样本主成分及其计算5.2.1 样本主成分实际问题中随机向量的协差阵、相关阵都是未知的,只能得到样品)()2()1(,...,n X X X 。
这时总用样本协差阵与样本相关阵代替协差阵、相关阵求主成分。
定义5.4 样本协差阵与样本相关阵的特征向量,计算主成分。
所得的主成分称为样本主成分。
这样求主成分是有道理的:若总体),(~∑μN X ,∑的特征值和正交单位特征向量是j λ和j c ;∧∑是∑的极大似然估计,即)')((1)(1)(-=-∧--=∑∑X X X X n i n i i 。
∧∑的特征值为p τττ≥≥...21,j τ相应正交单位特征向量为j d ,则可证定理5.3 若X 服从正态分布,则j τ是j λ的极大似然估计;j d 是j c 的极大似然估计。
因此,若X 服从正态分布,应当用第j 个样本主成分X d j '作为总体主成分j Y 的估计值。
从样本协差阵或样本相关阵出发,做主成分分析,所得样本主成分通常简称为主成分。
通常取)')((11R )(1)(-=----=∑X X X X n i n i i 为样本协差阵(∑的无偏估计),由∧∑或R 算出的样本相关阵是相同的,所产生(相关差阵决定)的主成分当然相同。
而R 与∧∑有相同的特征向量,R 的特征值是∧∑特征值的n/(n-1)倍。
因而由R 与∧∑所产生的(协方差阵决定的)主成分相同。
若X 不一定服从正态分布,这时仍可由样本协差阵R 或相关阵ρ出发,计算主成分。