当前位置:文档之家› 数学建模方法-主成分分析和MATLAB应用

数学建模方法-主成分分析和MATLAB应用


1 0.55341 0.51434 0.51538 0.4688 8 0.73562 0.71214
1
0.98793 0.9776 0.97409 0.68282 0.7 8019

1
0.98071 0.9798 0 .69735 0.77306
1
0.99235 0.6266 3 0.78718
X j e1 jY1 e2 jY2 e pjYp , Cov(Yi , X j ) ieij .
由此可得 Yi 与 Xj 的相关系数为
Yi ,X j
Cov(Yi , X j ) Var(Yi ) Var( X j )
ieij i jj
i jj
eij
24.423 36.283
36.283 56.046
49.146 75.404
3.67 47 38.718 5.0022 59.723
71.672 29.029 49.278 49.146 75.404 103.02 6.82 15 74.523
8.602 4.7846 3.629 3.6747 5.0022 6.8215 1.137 6 .7217
i* 的正
交单位特征向量。
第 i 个主成分的贡献率: i* ; p
m
i*
前 m 个主成分的累计贡献率: i1 ; p
Yi*

X
* i
的相关系数为
Yi*
,
X
* j

* i
ei*j

二、样本主成分 前面讨论的是总体主成分,但在实际问题中,一般 (或 )是未知的,需要通
过样本来估计。设
xi ( xi1, xi 2 , ..., xip )T , i 1, 2, ..., n.
为取自
X ( X1, X 2 , ..., X p )T
的一个容量为 n 的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为
S

(sij ) p p

1 n1
n
( xk
k 1

x )( xk

x)T
,

R

(rij ) p p


sij sii s jj


,
(9)
其中
x ( x1, x2 , ..., x p )T ,
xj
1 n
n i 1
x ij
,
j

1, 2, ...,
p,
sij

1 n1
n
( xki
k 1

xi
)( xkj

xj
)
,i,
j

1, 2, ...,
ei*p
Xp p pp
,
i 1, 2, ..., p.
(7)
p
p
p
Var(Yi* )
i*
Var
(
X
* i
)

p,
i 1
i 1
i 1
(8)
其中
1*

2*



* p

0

的特征值, ei* (ei*1, ei*2 , ..., ei*p )T 为相应于特征值
8.6 02 4.785 3.629 3.675 5.002 6.821 1.137
101.620
44.02 3
39.410
38.718

59.723

74.523
6.722

102.707
168.33 60.357 45.758 41.216 57.906 71.672 8.60 2 101.62
(4)
1.4 标准化变量的主成分
在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值 的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。为了消除由于量 纲的不同可能带来的影响,常采用变量标准化的方法,即令
X
* i

Xi i ii
,i
1, 2, ..., p
样本协方差矩阵为:
168.333




S







60.357 37.207
45.757 16.825 24.843
41.215 15.505 24.335 24.423
57.906 23.535 36.478 36.283 56.046
71.672 29.029 49.278 49.146 75.404 103.018
由此得主成分的总方差为
p
p
p
Var(Yi ) i tr(P TP ) tr(PP T ) tr() Var( X i ) ,
i 1
i 1
i 1
即主成分分析是把 p 个原始变量 X1,X2,…,Xp 的总方差
p
Var( X i )
i 1
分解成 p 个互不相关变量 Y1,Y2,…,Yp 的方差之和,即
p
Var(Yi )
i 1
而 Var(Yk ) k 。
第 k 个主成分的贡献率: i ; p i i 1
m
i
前 m 个主成分累计贡献率: i1 p
,它表明前 m 个主成分 Y1,Y2,…,Ym 综合提供 X1,
i
i 1
X2,…,Xp 中信息的能力。 1.3.2 主成分 Yi 与变量 Xj 的相关系数 由于 Y=PTX,故 X=PY,从而
主成分分析 类型:一种处理高维数据的方法。 降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会 增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然 每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定 的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这 些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分 信息,通过对新变量的分析达到解决问题的目的。
12.5 7.8 13.4 19.1 8.0 9.7 0.6 13.9 9.1
16.4 9.9 10.9 19.8 9.8 4.2 0.7 9.4 11.3
16.7 10.2 9.9 19.0 8.9 4.2 0.7 8.3 9.5
22.8 12.6 10.9 29.7 11.9 4.6 0.8 9.8 12.2
,
(5)
其中 i E( Xi ) , ii Var( Xi ) . 这时
的协方差矩阵便是
X*

(
X
* 1
,
X
* 2
,
...,
X
* p
)T
X ( X1, X 2 , ..., X p )T
的相关矩阵 (ij ) p p ,其中
ij

E
(
X
* i
X
* j
)

Cov( X i , X ii jj
别为
1 2 p 0

e1 , e2 , ..., e p ,
则 X 的第 i 个主成分为
Yi eiT X ei1X 1 ei 2X 2 eip X p , i 1, 2, ..., p ,
此时
Var
(Yi
Cov(Yi
) ,Yk
eiT ei ) eiT
一、总体主成分 1.1 定义
设 X1,X2,…,Xp 为某实际问题所涉及的 p 个随机变量。记 X=(X1,X2,…,Xp)T,其协方差矩阵为
( ij ) p p E[( X E( X ))( X E( X )) T] ,
它是一个 p 阶非负定矩阵。设
Y1 l1T X l11 X1 l12 X 2 l1 pX p Y2 l2T X l21 X1 l22 X 2 l2 pX p
p.
分别以 S 和 R 作为 和 的估计,然后按总体主成分分析的方法作样本主成分分
析。
三、 例 题
某市为了全面分析机械类个企业的经济效益,选择了 8 个不同的利润指标,14 企业
关于这 8 个指标的统计数据如下表所示,试进行主成分分析。
表 1 14 家企业的利润指标的统计数据
变 净产值 固定资产 总产值 销售收入 产品成 物耗利 人均利 流动资
101.62 44.023 39.41 38.718 59.723 74.523 6.721 7 102.71
由于 S 中主对角线元素差异较大,因此我们样本相关矩阵 R 出发进行主成分分析。 样本相关矩阵 R 为:
1




R







0.76266 0.70758 0.64281 0.59617 0.54426 0.62178 0.77285
Yp

l
T p
X

l p1X 1
lp2X2
l pp X p
(1)
则有
第 i 个主成分: 一般地,在约束条件
Var(Yi )

Var
(l
T i
X
)

l
T i
li
,
i

1, 2, ...,
p,
Cov(Yi ,Y j )

Cov(l
T i
X
,
l
T j
相关主题