当前位置:文档之家› 第七章 主成分分析

第七章 主成分分析


a1 a1 a1 a1 1
(1)
欲使方程组(3)有非零解,其充要条件是 I 0 是协方差阵 的特征根。又由 由此可见, a (2)式知,欲使 1 a1 的值最大,就是要 的 值最大。也就是说, 应取为 的最大的特 征根 1 。再由(1)式知,我们所要求的 a1 , 应该是 的最大的特征根 1所对应的单位化 特征向量。这样,我们就求得第一个综合 指标 ( a1 a1 1) y1 a1 X , 并称y1为第一个主成分。
a1 X , , a k X
就分别是第一,…,第k个主成分。
由于协方差阵 是对称阵,根据线性代数知,
的不同特征根所对应的特征向量是正交的。 所以,如果上面求得的k个特征根全不相同 时,则它们所对应的特征向量a1 ,… ak ,是相 互正交的,于是有 cov(ai X , a j X ) ai a j ai j a j j ai a j 0 这表明上面所求得的主成分y1,…,yk之间互 不相关。
y1,…,yq既能充分反映原来p个指标x1,…,xp所反
映的信息,又能使这q个综合指标之间互不相关。
首先,考虑第一个综合指标y1如何求得。它应该
是由原来p个指标x1,…,xp综合而成的,通常将其 取为原来p个指标的线性组合: y1 a1 X a11 x1 a1 p x p 其中a1 (a11 ,, a1 p ) ,是一个p维非零常向量。我
即 a2 也是协方差阵 的特征根所对应的单 位化特征向量。
a 2 a 2 1
为了使y2的方差尽量地大,自然a2 应为 的仅次于 1第二大特征根2 所对应的单位化 特征向量。这样,我们也求得了第二个综 合指标

y2 a2 X
, ( a 2 a 2 1 )
类似地,对于第二个综合指标y2,也设它 为原来p个指标x1,…,xp的线性组合,即设 y 2 a 2 X a21 x1 a2 p x p a2 (a21 ,, a2 p ) 也是一个p维非零常向 其中, a 量。同上,我们应在 2 满足单位化条件a 2 a 2 1 之下,求使y2的方差 a 2 a 2 达到最大的 a2 。 仍用Lagrange乘数法,可得应满足方程 a 2 a 2
2

a1 a1 1
这样一来,我们的问题就归结为在 a1 满足 单位化条件 a1 a1 1 之下,求使 a1 a1 达到 最大的 a1 。这就化成了求条件极值的问题。 可以用Lagrange乘数法来求解。为此令
其中 为Lagrange乘子。 对 (a1 , )分别求关于向量 a1 及乘子 的偏导 数,并令其等于零,得
一、求主成分的基本思想与方法
设 X ( x1 ,…, x p ) 是p维随机向量 EX ,V ( X ) 0
亦即来自总体X的样本有p个指标,其均值向量 为 ,协方差阵为
。现在的任务是要将这p个指
标x1,…,xp综合成尽可能少的几个综合性指标 y1,…,yq(q<p),而且要求这些新的综合指标
于是,从数学上考虑,就是要求有这样一种数学
方法:对原来提出的所有变量(即指标,设为p个) 综合成尽可能少的几个(设为q个,q<p)综合性 变量(即指标),并且要求这q个综合变量既能充 分反映原来的p个变量所反映的信息,又能使这q
个综合变量之间互不相关。主成分分析就是为解
决上述问题而引进的统计方法。
们的任务是如何选取适当的非零常向量a1 ,使得
y1能最大限度地反映原来ห้องสมุดไป่ตู้个指标的作用。
根据主成分分析的方法,这就意味着要使 原来p个指标x1,…,xp经过的变换后,得到 的y1具有最大的方差,也就是说使y1的方 差
V ( y1 ) V (a1 X ) a1 a1
尽可能地大。这就是主成分的基本思想。
(a1 , ) a1 a1 (a1 a1 1)


2a1 2a1 0 a1 a a 1 0 1 1
用 a1 右乘(1)式的两端,得 V ( y1 ) a1a1 a1 a1 (2) 再由(1)式可得 ( I )a1 0 (3)
然而,我们却不能通过增大向量a1 的长度 2 2 2 a a a (即 11 12 1 p )来使y1的方差变大。 因为对于任意常数 k >0,我们有
V (ka1 X ) k 2V (a1 X ) k 2 a1a1 , 即只要 a1 变长 k 倍,则相应的方差就变大 k 倍。因此如果对 a1 不加任何限制,问题 将会变得没有什么意义了。通常,一个很 自然的限制就是取为 a1 单位向量,即满足 单位化条件
第七章 主成分分析
在实际讨论统计问题时,为了获取充分的信息对
问题作出较可靠的推断,往往选择许多个指标 (变量)去进行观察,而这些指标甚至会多到十 几个或几十个,因为每个指标都在不同程度上反 映所研究的问题的信息。但是指标太多常常会增
加对问题分析的复杂性。因此,人们自然希望选
取的指标个数较少而得到的信息较多。在很多情 况下,这些指标之间有一定的相关关系,当两个 指标之间有一定的相关关系时,可以解释为两个 指标反映的信息有一定的重叠。
并称y2为第二个主成分。 依次下去,我们可求得第三主成分,第四 主成分,等等。
由于协方差阵 0 ,根据线性代数知识 知, 的所有特征根都是非负实数。将它 们按大小顺序排列为
1 2 p 0
并设前k个为正 (k p) ,且1 ,k相应的单 位化特征向量分别为 a1 ,…, ak ,那么,
相关主题