当前位置：文档之家› 主成分分析PPTword版本

主成分分析PPTword版本

u1u1 u12i u22i
u
2 pi
1
(2) 主成分之间相互无关，即无重叠的信息。即
Co（v yi，yj） 0，i j，i, j 1, , p
(3) 主成分的方差依次递减，重要性依次递减，即
Va（r y1） Var( y2 ) Var( yp )
二维空间中主成分的几何意义：设有n个样品，每个样品有两个观测变量xl和x2。在由变量xl和x2 所确定的二维平面中，n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2 轴方向都具有较大的离散性，其离散的程度可以分别
0
0
0
p
其中i ,i 1.2. p 是A的特征根。
2、若上述矩阵的特征根所对应的单位特征向量
为
u1, ,up
u11 u12
令 U (u1,
,up
)
u21
u22
up1 up2
u1 p
u2 p
upp
则U是正交矩阵，即有
UU UU I
二、主成分的推导
（一）第一主成分设x的协方差阵为
所以当且仅当a1 u1 时， y1有最大的方差1．
y1称为第一主成分。如果第一主成分的信息不够，则需要寻找第二主成分。
（二）第二主成分在约束条件 cov( y1, y2 ) 0下，寻找第二主成分
y2 a12 x1 a p2 x p a2 x
因为 cov( y1, y2 ) cov(u1 x, a2 x)
u1a2 1u1a2 0
所以 a2u1 0
于是，对任意的p维向量a2，有
p
V ( y2 ) a2a2 ia2uiuia2 i 1
因此，人们会很自然地想到，能否在相关分析的基础上，用较少的新变量代替原来较多的旧变量，而且使这些较少的新变量尽可能多地保留原来变量所反映的信息？
事实上，这种想法是可以实现的，主成分分析方法就是综合处理这种问题的一种强有力的工具。
主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看，这是一种降维处理技术。
主成分分析通常的做法，是寻求原指标的线性组合yi：
y1 u11 x1 u21 x2 up1 x p y2 u12 x1 u22 x2 up2 x p
y p u1 p x1 u2 p x2
满足如下的条件：
upp x p
(1) 每个主成分的系数平方和为1（否则其方差可能为无穷大），即
用观测变量xl 的方差和x2 的方差定量地表示。显然，如果只考虑xl和x2 中的任何一个，那么包含在原始数据中的信息将会有较大的损失。
平移、旋转坐标轴
主
成
•• • • •
分分析的几何
••
•• •• •
•• •
• ••
•
• o• •
• ••
•
• •
•
•
•
• •••
解
••
释
将xl 轴和x2轴先平移，再同时按逆时针方向旋转角度，得到新坐标轴Fl和F2，则
2
数学模型与几何解释
§2 数学模型与几何解释
假设实际问题中有p个指标，我们把这p个指标看作p个随机变量，记为x1，x2，…，xp，主成分分析就是要把这p个指标，转变为讨论p 个指标的线性组合的问题，这些新的指标y1， y2，…，yk(k≤p），
原则: 保留主要信息量的充分反映原指
标的信息，并且相互无关。这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。
2 1
Σx
21
12
2 2
p1 p2
1
p
2p
2 p
由于Σx为非负定的对称阵，所以存在正交阵U，使得
UΣXU
1
0
0
p
其中1,…,p为Σx的特征根，不妨假设1…p。
U是由特征根相对应的特征向量所组成的正交阵：
u11 u12
i
U (u1,
,up
)
u21
u22
up1 up2
u1 p
u2 p
upp
ui u1i，u2i，，upi i 1,2, , P
下面证明，由U的第一列元素所构成的原始变量的线性组合有最大的方差。
设有P维单位向量 a1 a11, a21,
, a p1
y1 a11 x1 a21 x2 a p1 x p a1 x
主成分分析
目录
CONTENT
1 基本思想 2 数学模型与几何解释 3 主成分的推导及性质 4 主成分性质 5 样本的主成分 6 主成分分析计算步骤 7 主成分分析软件操作
1
基本思想
§1 基本思想
在研究中，多变量问题是经常会遇到的。变量太多，无疑会增加分析问题的难度与复杂性，而且在许多实际问题中，多个变量之间是具有一定的相关关系的。
1
D(
y1 )
a1a1
a1U
2
Ua1
p
1
a1 u1,u2 ,
,
up
2
p
p
ia1uiuia1 1 a1uiuia1
i 1
i 1
1a1UUa1 1a1a1 1
u1
u2
a1
ቤተ መጻሕፍቲ ባይዱ
p
up
当a1 u1时， y1 u11 x1 up1 x p，且
Var y1 u1xu1 1．
平移、旋转坐标轴
x 2
F 1
主
F2
成
•• • • •
分分析的几何
•• • •
•• •
•
• •
••• • • •
o • •••
• •• •
•• •
o•
• •
x 1
解
••
释
旋转变换的目的是为了使得n个样品点在Fl轴方向上的离散程度最大，即yl的方差最大。
变量yl代表了原始数据的大部分信息，在研究某些实际问题时，即使不考虑变量y2也无损大局。
二维平面上的各点的方差大部分都归结在Fl轴上，而F2轴上的方差很小。
yl和y2称为原始变量x1和x2的综合变量。F简化了系统结构，抓住了主要矛盾。
3
主成分的推导及性质
§3 主成分的推导及性质
一、两个线性代数的结论 1、若A是p阶实对称阵，则一定可以找到正交阵U，使
1 0 0
U
1AU
0
2
经过上述旋转变换原始数据的大部分信息集中到 Fl轴上，对数据中包含的信息起到了浓缩作用。
平移、旋转坐标轴
x 2
F 1
主成分分析的几何解释
F2 ••••
•••••
••••o••
••
•••o••••••••
•••
•••
•
x 1
yl，y2除了可以对包含在Xl，X2中的信息起着浓缩作用之外，还具有不相关的性质，这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。

e商务文档

主成分分析PPTword版本

相关文档推荐：