当前位置：文档之家› 数学建模实用教程(主成分分析)

数学建模实用教程(主成分分析)

精品课件
解决的问题之一：降维
主成份分析正是针对这类问题而产生的，是解决这类题的理想工具。
主成分分析也称主分量分析（principal components analysis,PCA）是由美国的科学家哈罗德·霍特林（Harold Hotelling）于1933 年首先提出的。人们希望通过克服相关性、重叠性，用较少的变量来代替原来较多的变量，而这种代替可以反映原来多个变量的大部分信息，这实际上是一种“降维”的思想。
一般D情(Y2)形T，2Σ第T2 k
主成分为，Y2 满 T2足X
Tk
T
k
1
，
且（），使得 C o v(Y k,Y i)C o v(T kX ,T iX )0 i k
D(Yk)TkΣTk
达到最大的 Yk TkX
。
精品课件
第一主成分求法
利用拉格朗日乘数法构造目标函数为：
1(T1, ) T1ΣT1 (T1T1 1) 对目标函数1(T1, ) 求导数有：
T1＝T1
1
T1
2ΣT1
2T1
0
即 (Σ I)T1 0
|I|0
两边左乘 T1 得到 T1ΣT1 由于 X 的协差阵 Σ 为非负定的，其特征方程的根均大于等于零，
不妨设 1 2 p 0 。由于 Y1 的方差为。那么， Y1 的
最大方差值为 1 ，其相应的单位化特征向量为T1 。
tpp X p TpX
精品课件
新指标的方差及它们的协方差：
这里我们应该注意到，对于 Y1, ,TiΣTi i 1,2, ,m
Cov(Yi ,Yk ) Cov(TiX,TkX) TiCov(X, X)Tk TiΣTk i,k 1,2, ,m
标系 y1Oy2 ，这里 y1 是椭圆的长轴方向，y2 是椭圆的短轴方向。
旋转公式为
YY21XX11csoisn
X 2 sin X 2 cos
我们看到新变量 Y1 和 Y2 是原变量 X1 和 X 2 的线性组合，它的
矩阵表示形
式为：
Y1 Y2
cos sin
sin cos
X1 X2
TX
其中， T 为旋转变换矩阵，它是正交矩阵，即有 T T1
或 TT I 。
精品课件
推广一般主成分确定的模型
主成分分析的数学模型是，设p个变量构成T为的正交q阵维有随：机
向量为
Y是列向量
T’T=I;T’=T^(-1)
X = （X1，…，Xp）′
对X作正交变换，令Y = T′X，其中T为正交阵，要求
综合评价方法之二基于数据分析几种方案
精品课件
方案一主成份分析法
精品课件
问题实际背景
在现实生活中，人们往往会对样品收集尽可能多的指标，例如人口普查往往要调查每个人的姓名、年龄、性别、文化程度、住房、职业、收入、消费等几十项指标，从收集资料的角度来看，收集较多的数据有利于完整反映样品的特征，但是这些指标从统计角度来看相互之间具有一定的依赖关系，从而使所观测的数据在反映信息上有一定重叠。
精品课件
有关数学模型与常见实例
2008年美国数学建模竞赛题： “评价国家公共卫生体系上的应
用” 啤酒风味评价分析实例我国部分地区城镇居民家庭收支
基本情况分析实例
精品课件
精品课件
明确信息量大数学意义
我们知道，当一个变量只取一个数据时，这个变量（数据）提供的信息量是非常有限的，当这个变量取一系列不同数据时，我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大，说明它对各种场景的“遍历性” 越强，提供的信息就更加充分，信息量就越大。主成分分析中的信息，就是指标的变异性，用标准差或方差表示它。
精品课件
主成分确定的准则：信息损失小，之间重叠少
假设共有n个样品，每个样品都测量了两个指标（X1，X2），在坐标系x1-O-x2中，观察散点的分布，单独看这n个点的分量X1和X2，它们沿着 x的1程方为了度向便和可于x以2理方分解向别以都用两具的个指有X1标较方为大差例的和：离X2散的性方，差其测离定散。如果仅考虑X1或X2中的任何一个分量，那么包
含在另一分量中的信息将会损失，因此，直接舍弃某个分量不是“确定主成分”的有效办法。
精品课件
确定第一主成分方法
事实上，散点的分布总有可能沿着某一个方向略显扩张，这个方向就把它看作椭圆的长轴方向。
精品课件
Y1
Y2
结论：
Y2
为第一主成分，
为第二主成精品课件
主成分的数学模型：
如果我们将该坐标系按逆时针方向旋转某个角度变成新坐
精品课件
解决的问题之二：几何分析
多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几
何图形经过主成分分析后，我们可以选取前两个主成分或其中某两个主成分，这样既可以就这两个主成分性质加以分析，还可以根据主成分画出n个样品在二维平面上的分布况，由图形可直观地看出各样品在主成分中的地位，进而还可以对样本进行分类处理。
Y的各分量是不相关的，并且Y的第一个分量的方差是
最大的，第二个分量的方差次之，……，等等。为了
保持信息不丢失，Y的各分量方差和与X的各分量方差
和相等。
精品课件
新旧变量关系的表达式
Y1
t11X1
t12 X2
Y2
t21X1
t22 X2
Yp tp1X1 tp2 X2
t1p X p T1X t2 p X p T2X
精品课件
解决的问题之三：客观加权
选择评价指标体系后通过对各指标加权的办法来进行综合。但是，如何对指标加权是一项具有挑战性的工作。指标加权的依据是指标的重要性，指标在评价中的重要性判断难免带有一定的主观性，这影响了综合评价的客观性和准确性。主成分分析法是根据指标间的相对重要性进行客观加权，可以避免综合评价者的主观影响，所以在实际应用中越来越受到人们的重视。
其中 D(Yi )
表示方差，Cov表示协方
差，
表示X协方差阵
精品课件
主第成一分主确成分定为条，件满：足，
并且使得
达到最大
的
。T
1
T
1
1
第二主成D(Y分1)为T1，ΣT1满足
， Y1 T1X
使得的
。达到最大 T2T2 1 C o v (Y 2,Y 1 ) C o v (T 2 X ,T 1 X ) 0

e商务文档

数学建模实用教程(主成分分析)

相关文档推荐：