当前位置:
文档之家› 数学建模实用教程(主成分分析)
数学建模实用教程(主成分分析)
精品课件
解决的问题之一:降维
主成份分析正是针对这类问题而产生的,是解决这 类题的理想工具。
主成分分析也称主分量分析(principal components analysis,PCA)是由美国的科学 家哈罗德·霍特林(Harold Hotelling)于1933 年首先提出的。人们希望通过克服相关性、 重叠性,用较少的变量来代替原来较多的变 量,而这种代替可以反映原来多个变量的大 部分信息,这实际上是一种“降维”的思想。
一般D情(Y2)形T,2Σ第T2 k
主成分为,Y2 满 T2足X
Tk
T
k
1
,
且( ),使得 C o v(Y k,Y i)C o v(T kX ,T iX )0 i k
D(Yk)TkΣTk
达到最大的 Yk TkX
。
精品课件
第一主成分求法
利用拉格朗日乘数法构造目标函数为:
1(T1, ) T1ΣT1 (T1T1 1) 对目标函数1(T1, ) 求导数有:
T1=T1
1
T1
2ΣT1
2T1
0
即 (Σ I)T1 0
|I|0
两边左乘 T1 得到 T1ΣT1 由于 X 的协差阵 Σ 为非负定的,其特征方程的根均大于等于零,
不妨设 1 2 p 0 。由于 Y1 的方差为 。那么, Y1 的
最大方差值为 1 ,其相应的单位化特征向量为T1 。
tpp X p TpX
精品课件
新指标的方差及它们的协方差:
这里我们应该注意到,对于 Y1, ,TiΣTi i 1,2, ,m
Cov(Yi ,Yk ) Cov(TiX,TkX) TiCov(X, X)Tk TiΣTk i,k 1,2, ,m
标系 y1Oy2 ,这里 y1 是椭圆的长轴方向,y2 是椭圆的短轴方向。
旋转公式为
YY21XX11csoisn
X 2 sin X 2 cos
我们看到新变量 Y1 和 Y2 是原变量 X1 和 X 2 的线性组合,它的
矩阵表示形
式为:
Y1 Y2
cos sin
sin cos
X1 X2
TX
其中, T 为旋转变换矩阵,它是正交矩阵,即有 T T1
或 TT I 。
精品课件
推广一般主成分确定的模型
主成分分析的数学模型是,设p个变量构成T为的正交q阵维有随: 机
向量为
Y是列向量
T’T=I;T’=T^(-1)
X = (X1,…,Xp)′
对X作正交变换,令Y = T′X,其中T为正交阵,要求
综合评价方法之二 基于数据分析几种方案
精品课件
方案一 主成份分析法
精品课件
问题实际背景
在现实生活中,人们往往会对样品收集 尽可能多的指标,例如人口普查往往要 调查每个人的姓名、年龄、性别、文化 程度、住房、职业、收入、消费等几十 项指标,从收集资料的角度来看,收集 较多的数据有利于完整反映样品的特征, 但是这些指标从统计角度来看相互之间 具有一定的依赖关系,从而使所观测的 数据在反映信息上有一定重叠。
精品课件
有关数学模型与常见实例
2008年美国数学建模竞赛题: “评价国家公共卫生体系上的应
用” 啤酒风味评价分析实例 我国部分地区城镇居民家庭收支
基本情况分析实例
精品课件
精品课件
明确信息量大数学意义
我们知道,当一个变量只取一个数据时,这个 变量(数据)提供的信息量是非常有限的,当 这个变量取一系列不同数据时,我们可以从中 读出最大值、最小值、平均数等信息。变量的 变异性越大,说明它对各种场景的“遍历性” 越强,提供的信息就更加充分,信息量就越大。 主成分分析中的信息,就是指标的变异性,用 标准差或方差表示它。
精品课件
主成分确定的准则:信息损失小,之间重叠 少
假设共有n个样品,每个样品都测量了两个指标 (X1,X2),在坐标系x1-O-x2中,观察散点的 分布,单独看这n个点的分量X1和X2,它们沿着 x的1程方为了度向便和可于x以2理方分解向别以都用两具的个指有X1标较方为大差例的和:离X2散的性方,差其测离定散。 如果仅考虑X1或X2中的任何一个分量,那么包
含在另一分量中的信息将会损失,因此,直接 舍弃某个分量不是“确定主成分”的有效办法。
精品课件
确定第一主成分方法
事实上,散点的分布总有可能沿着某一个方向 略显扩张,这个方向就把它看作椭圆的长轴方 向。
精品课件
Y1
Y2
结论:
Y2
为第一主成分,
为第二主成 精品课件
主成分的数学模型:
如果我们将该坐标系按逆时针方向旋转某个角度 变成新坐
精品课件
解决的问题之二:几何分析
多维数据的一种图形表示方法。 我们知道当维数大于3时便不能画出几
何图形经过主成分分析后,我们可以选取前两 个主成分或其中某两个主成分,这样既可以就 这两个主成分性质加以分析,还可以根据主成 分画出n个样品在二维平面上的分布况,由图 形可直观地看出各样品在主成分中的地位,进 而还可以对样本进行分类处理 。
Y的各分量是不相关的,并且Y的第一个分量的方差是
最大的,第二个分量的方差次之,……,等等。为了
保持信息不丢失,Y的各分量方差和与X的各分量方差
和相等。
精品课件
新旧变量关系的表达式
Y1
t11X1
t12 X2
Y2
t21X1
t22 X2
Yp tp1X1 tp2 X2
t1p X p T1X t2 p X p T2X
精品课件
解决的问题之三:客观加权
选择评价指标体系后通过对各指标加权的办 法来进行综合。但是,如何对指标加权是一 项具有挑战性的工作。指标加权的依据是指 标的重要性,指标在评价中的重要性判断难 免带有一定的主观性,这影响了综合评价的 客观性和准确性。主成分分析法是根据指标 间的相对重要性进行客观加权,可以避免综 合评价者的主观影响,所以在实际应用中越 来越受到人们的重视。
其中 D(Yi )
表示方差,Cov表示协方
差,
表示X协方差阵
精品课件
主 第成一分主确成分定为条,件满:足 ,
并且使得
达到最大
的
。T
1
T
1
1
第二主成D(Y分1)为T1,ΣT1满足
, Y1 T1X
使得 的
。 达到最大 T2T2 1 C o v (Y 2,Y 1 ) C o v (T 2 X ,T 1 X ) 0