当前位置:文档之家› 主成分分析模型

主成分分析模型


这种将多个指标化为少数互相无关的综合指标的统 计方法就叫主成分分析或称为主分量分析.也是数学 上处理降维的一种方法.例如,某人要做一件上衣要 测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、 肩厚等等十几个指标,但某服装厂要生产一批新型 服装绝不可能把尺寸的型号分得过多,而是从多种 指标中综合成几个少数的综合指标,做为分类的型 号,利用主成分分析将十几项指标综合成3项指标, 一项是反映长度的指标,一项是反映胖瘦的指标, 一项是反映特体的指标。在商业经济中用主成分分 析可将复杂的一些数据综合成几个商业指数形式, 如物价指数、生活费用指数、商业活动指数等等。
主成分分析综合评价法具有以下优点:第一,可消 除评价指标之间的相关影响。因为主成分分析在对 原指标变量进行变换后形成了彼此相互独立的主成 分,而且实践证明指标间相关程度越高,主成分分 析效果越好。第二,可减少指标选择的工作量,对 于其它评价方法,由于难以消除评价指标间的相关 影响,所以选择指标时要花费不少精力,而主成分 分析由于可以消除这种相关影响,所以在指标选择 上相对容易些。第三、主成分分析中各主成分是按 方差大小依次排列顺序的,在分析问题时,可以舍 弃一部分主成分,只取前面方差较大的几个主成分 来代表原变量,从而减少了计算工作量。
3、数学模型
设有n个样品,每个样品观测项指标(变量): X1,X2,……,Xp,得到原始资料数据矩阵:
x x 11 x x X21
12
22
x x n1
n2
x1p
x2p
(X1,X2,,
Xp)
xnp
用数据矩阵X的p个向量(即p个指标向量)
X1,……,Xp作线性组合(即综合指标向量)为:
F a X a X a X
这里要说明两点:一个是数学模型中为什么作
线性组合?基于两种原因: 1)数学上容易处理;2) 在实践中效果好。另一个需要说明的是每次主成
分的选取使Var(Fi)最大,如果不加限制就可使 Var(Fi) →∞,则就无意义了,而常用的要求是:
a a a 2 2 2 1
1i 2i
pi
设∑的特征根分别为: 12p
定义: 称第一主成分的贡献率为
由于V ,a(F r1)1
所以 1 p
Va r(F1 )
p
i Var(Fi )
, 1 p i
i 1

i 1
i 1
因此第一主成分的贡献率就是第一主成分的
方差在全部方差
p
i 中的比值。这个比值越大,
i1
表明第一主成分综合X1,……,Xp信息的能力越 强。
前两个主成分的累计贡献率定义为 1 2
第二讲 主成分分析模型与因子分析模型
一、主成分分析模型
1.什么是主成分分析 主成分概念首先是由Karl Parson 在1901年
引进的,不过当时只对非随机变量来讨论的. 1933年Hotelling将这个概念推广到随机向量.
在实际问题中,研究多指标(变量)问题是经常 遇到的,然而在多数情况下,不同指标之间是有一 定相关性.由于指标较多再加上指标之间有一定的 相关性,势必增加了分析问题的复杂性.主成分分 析就是设法将原来指标重新组合成一组新的互相 无关的几个综合指标来代替原来指标,同时根据实 际需要从中可取几个较少的综合指标尽可能多地 反映原来指标的信息.
1
11 1
21 2
p1 p
F a X a X a X
2
12
1
22
2
p2
p
F a X a X a X
p
1p
1
2p
2
pp
p
a a a 上述方程要求: 2 2 2 1
1i
2i
pi
且系数由下列原则确定:
(1)Fi与Fj( ij,i,j1,2,,p )不相关;
(2)F1是X1,X2,…,Xp的一切线性组合中方差 中最大的,F2是与F1不相关的X1,X2,…,Xp的一 切 线 性 组 合 中 方 差 中 最 大 的 , …… , Fp 是 F1 , F2,…,Fp-1都不相关的X1,X2,…,Xp的一切线 性组合中方差中最大的。
,p
i
i 1
前k个主成分的累计贡献率定义为
k
i
p
i

i 1
i 1
如果前k个主成分的贡献率达到85%,表明取前k
个主成分包含了全部测量指标所具有的信息,这
样既减少了变量的个数又便于对实际问题的分析
和研究。
值得指出的是:当协方差阵∑未知时,可用其估计 值S(样本协方差阵)来代替。
设已有的信息就不需要 再出现在F2中,用数学语言表达就是要求 Cov(F1,F2)=0,称F2为第二主成分,依此类推,可 以制造出第三、四……第p个主成分。不难想像这 些主成分之间不仅不相关,而且它们的方差依次递 减。因此,在实际工作中,就挑选前几个最大的主 成分(一般取信息量包含85%以上的前几个指标), 虽然这样做会损失一部分信息,但是由于它使我们 抓住了主要矛盾,并从原始数据中进一步提取了某 些新的信息,因而在某些实际问题的研究中得益比 损失大,这种既减少了变量的数目又抓住了主要矛 盾的做法有利于问题的分析和处理。
2、基本思想
主成分分析就是设法将原来众多具有一定相关 性的指标(比如p个指标),重新组合成一组相互 无关的综合指标来代替原来指标。通常数学上的处 理就是将原来p个指标作线性组合,作为新的综合 指标,但是这种线性组合,如果不加限制,则可以 有很多,我们应该如何去选取呢?如果将选取的第 一个线性组合即第一个综合指标记为F1,自然希望 F1尽可能多的反映原来指标的信息,这里的“信 息”用什么来表达?最经典的方法就是用F1的方差 来表达,即Var(F1)越大,表示F1包含的信息越多。 因此在所有的线性组合中所选取的F1应该是方差最 大的,故称F1为第一主成分。如果第一主成分不足 以代表原来p个指标的信息,再考虑选取F2即选第 二个线性组合。
可以证明,满足上述条件的主成分F1,F2,…, Fp线性组合中的系数向量 (aii,a2i,,api) 恰好是X的 协方差矩阵∑的特征值对应的特征向量。也就是说, 数学上可以证明使Var(F1)达到最大,这个最大值是 在∑的第一个特征值所对应特征向量处达到。
依此类推,使Var(Fp)达到最大,这个最大值是在 ∑的第p个特征值所对应特征向量处达到。
相关主题