当前位置:文档之家› 数学建模案例分析—主成分分析的应用--概率统计方法建模

数学建模案例分析—主成分分析的应用--概率统计方法建模

§8 主成分分析的应用
主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能多地包含原变量的信息(降维),从而使得用这几个新变量替代原变量分析问题成为可能。

即在尽可能少丢失信息的前提下从所研究的m 个变量中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分析、聚类分析等等)仍能达到我们的目的。

设有n 个样品,m 个变量(指标)的数据矩阵
(1)1112
1(2)21222()12m m n m
n n n nm x x x x x x x x X x x x x ⨯⎛⎫
⎛⎫
⎪ ⎪ ⎪
⎪== ⎪
⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭
寻找k 个新变量12,,,()k y y y k m ≤ ,使得 1、1122,(1,2,,)l l l lm m y a x a x a x l k =+++= 2、12,,k y y y 彼此不相关
这便是主成分分析。

主成分的系数向量12(,,,)l l l lm a a a a = 的分量lj a 刻划出第j 个变量关于第l 个主成分的重要性。

可以证明,若12(,,,)T m x x x x = 为m 维随机向量,它的协方差矩阵V 的m 个特征值为
120m λλλ≥≥≥≥ ,相应的标准正交化的特征向量为12,,,m u u u ,则
12(,,,)T m x x x x = 的第i 主成分为(1,2,,)T i i y u x i m == 。

称1
/
m
i j
j λλ
=∑为主成分(1,2,,)T
i i y u x i m == 的贡献率,
1
1
/k m
j j
j j λλ
==∑∑为主成分
12,,k y y y 的累计贡献率,它表达了前k 个主成分中包含原变量12,,,m x x x 的信息量大
小,通常取k 使累计贡献率在85%以上即可。

当然这不是一个绝对不变的标准,可以根据实
际效果作取舍,例如当后面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选入又达不到简化变量的目的,那时常常将它们一同割舍。

计算步骤如下:
1、由已知的原始数据矩阵n m X ⨯计算样本均值向量12ˆ(,,,)T
m x x x x μ== ; 其中1
1(1,2,,)n
i ij j x x i m n ===∑
2、计算样本协方差矩阵1
ˆ()()ˆ1
ij ij V
s n σ==- 其中1
()()(,1,2,,)n
ij li
i lj j l s x
x x x i j m ==
--=∑
3
、把原始数据标准化,即ij x x x
-= ()n m
ij X x ⨯= 。

形成样本相关矩阵ˆT R X X = ; 4、求ˆR 的特征根120m λλλ≥≥≥≥ 及相应的标准正交化的特征向量12,,,m
u u u ,可得主成分为(1,2,,)T i i y u x i m == 。

关于主成分的实际意义,要结合具体问题和相关的专业知识才能给出合理的解释。

例1 下表是10名初中男学生的身高(1x ),胸围(2x ),体重(3x )的数据,试进行主成分分析。

由表中数据计算得到
ˆ(161.2,77.3,51.2)T x μ== 46.5717.0930.981ˆ21.1132.58ˆ155.53V S n ⎛⎫
⎪==
⎪- ⎪⎝⎭
解出ˆV
的三个特征值和相应的三个标准正交化的特征向量为
12399.00,22.79, 1.41λλλ===
1(0.56,0.42,0.71)T u =, 2(0.83,0.33,0.45)T
u =--, 3(0.05,0.84,0.
54)T
u =- 由于三个主成分的贡献率分别为
99.022.79 1.41
80.36%,18.50%, 1.14%123.20123.20123.20
===
当保留前两个主成分时,累计贡献率已达98.86%,因此第三个主成分可以舍去。

得到的前
两个样本主成分的表达式为
11230.560.420.71y x x x =++ 21230.830.330.45y x x x =--
现在我们来解释这两个主成分的意义,从1y 的表达式可以看出,1y 是身高、胸围、体重三个变量的加权和,当一个学生的1y 数值较大时,可以推断其或较高或较胖或又高又胖,故1y 是反映学生身材魁梧与否的综合指标。

2y 的表达式中系数的符号为一正(1x )两负(2x ,3x )
,当一个学生的2y 数值较大时,表明其1x 大,而2x ,3x 小,即为瘦高个,故2y 是反映学生体形特征的综合指标。

需要指出的是,虽然利用主成分本身可对所涉及的变量之间的关系在一定程度上作分析,但这往往并不意味着分析问题的结束。

主成分分析本身往往并不是最终目的,而只是达到某种目的的一种手段。

很多情况下,主成分分析只是作为对原问题进行统计分析的中间步骤,目的是利用主成分变量代替原变量作进一步的统计分析,达到减少变量个数的效果。

例如,利用主成分变量作回归分析、判别分析、聚类分析等等。

下面再举一个利用主成分进行样品排序的例子。

例2 电子工业部所属的15个工厂某年份的经济效益数据如下表。

其中
1x —资金利税率(%) 2x —固定资产利税率(%) 3x —流动资金利税率(%) 4x —全员利税率(%) 5x —成本利税率(%) 6x —流动资金周转天数
按照上述步骤,可以计算出样本相关矩阵为
10.978
10.9950.9541ˆ0.880
0.8950.86210.0080.7240.8420.64310.7590.8050.720
0.730
0.4081
R ⎛⎫
⎪ ⎪ ⎪=
⎪ ⎪ ⎪ ⎪ ⎪-----⎝

ˆR
的特征根及相应的标准正交化的特征向量分别为
11234560.4410.4370.4360.410.3590.358y x x x x x x =++++-
此主成分主要反映前四个经济指标的效果,因为其系数之值比较接近,它们几乎以一样的重要性综合说明了各厂的经济效益。

第二个主成分为
6543212678.0677.0184.0175.0092.0083.0x x x x x x y ++-+-=
此主成分主要反映后两个经济指标的效果。

由于前两个主成分的累计贡献率已达94.5%,因此可以选取1y ,2y 来评价这些工厂的综合经济效益。

用下式作为每个样品的“综合数值”,按其大小给样品排序。

1122k k Z y f y f y f =+++ 其中1
/
m
i i j
j f λλ
==∑。

这里120.8370.108Z y y =+。

结果每个样品的Z 值列于表中最右边一列,按Z 值大小排序结果列于右边第二列。

相关主题