当前位置:
文档之家› 第十讲 主分量(主成分)分析
第十讲 主分量(主成分)分析
居民消费 水平x2 1254 2320 1182 1527 1034 1527 1408 2699 1314 1814 1261 942 1261 1110 1208 1007 1445 1355 1469
固定资产 投资x3 474 553.97 282.84 1229.55 670.35 571.68 422.61 1639.83 382.59 198.35 822.54 150.84 334 17.87 300.27 114.81 47.76 61.98 376.95
职工平均 工资x4 4609 5857 4211 5145 4344 4685 4797 8250 5105 5340 4645 4475 5149 7382 4396 5493 5753 5079 5348
货物周转 量x5 908.3 609.3 411.7 1196.6 1574.4 849 1011.8 656.5 556 232.1 902.3 301.1 310.4 4.2 500.9 507 61.6 121.8 339
1) PRINCOMP过程计算结果有:简单统计量,相关 阵或协方差阵,从大到小排序的特征值和相应特征向 量,每个主成分解释的方差比例,累计比例等. 由特征向量得出相应的主成分,用少数几个主成分代 替原始变量,并计算主成分得分. 2) 主成分的个数可以由用户自己确定,主成分的名 字可以用户自己规定.
3) 输入数据集可以是原始数据集、相关阵、协方差阵等. 输入为原始数据时,还可以规定从协方差阵出发还是从 相关阵出发进行分析,由协方差阵出发时方差大的变量
(principal components analysis,PCA)
二、主分量分析的基本原理
定义:记x1,x2,…,x P为原变量指标,z1, z2,…,z m(m≤p)为新变量指标
z1 l11 x1 l12 x2 l1 p x p z2 l21 x1 l22 x2 l2 p x p .......... .. zm lm1 x1 lm 2 x2 lmp x p
i : 权 重(各 主 成 分 方 差 )
Yi : 反 映 各 相 应 评 价 指 标 息 信的 各 主 成 分 得 分
3.进行探索性分析 利用因子载荷阵,找出影响各综合指标 的主要原始指标. 4.对样品进行分类
利用主成分得分对样品进行分类.
五、使用PRINCOMP过程进行主成分分析
1. PRINCOMP过程的功能简介
2) VAR语句指定用于主成分分析的变量,变量必须为数值 型(区间型)变量.缺省使用DATA = 输入数据集中所有数值 型变量进行主成分分析.
六、主分量分析方法应用实例
例1 对全国30个省市自治区经济发展基本情况的八项指标作 主成分分析,原始数据如表7-2.
表7-2 全国30个省市自治区经济发展基本情况
第七章 主分量(主成分)分析
• 概 述
• 主分量分析的基本原理
• 主分量分析的计算步骤
• 主分量分析主要的作用
• 使用PRINCOMP过程进行主成分分析
• 主分量分析方法应用实例
一、概述
一般情况下,系统是由多要素构成的复杂结构, 多变量问题是经常会遇到的.变量太多,无疑会增加 分析问题的难度与复杂性,而且在许多实际问题中, 多个变量之间是具有一定的相关关系的. 因此,人们会很自然地想到,能否在相关分析的 基础上,用较少的新变量代替原来较多的旧变量,而 且使这些较少的新变量尽可能多地保留原来变量所反 映的信息?
k
反映了原来P个指标多大的信息,有多大的综合能力 . 累计贡献率
k i
i 1
i 1 p
(i 1, 2, , ห้องสมุดไป่ตู้ )
i
前k个主成分共有多大的综合能力,用这k个主成分 的方差和在全部方差中所占比重来描述,称为累积贡献 率.
在实际工作中,主成分个数的多少取决于能
够反映原来变量 85% 以上的信息量为依据,即当
② 分别求出对应于特征值 i 的特征向量 li (i 1,2,, p)
2 要求 li =1,即 lij 1 j 1 p
,其中 lij 表示向量 li 的 第j个
分量.
③ 计算主成分贡献率及累计贡献率
贡献率:第i个主成分的方差在全部方差中所占比重
i
k 1
p
(i 1,2, , p)
PROC PRINCOMP <选项列表>;
VAR 变量列表; RUN;
其中: 1) PROC PRINCOMP语句用来规定输入输出和一些运行 选项,其选项及功能见表7-1.
表7-1 PROC PRINCOMP语句的选项
DATA = OUT = OUTSTAT = COVARIANCE | COV N= PREFIX = 输入数据集,可以是原始数据集,也可以是TYPE = CORR,COV的数据集; 输出包含原始数据和主成分得分的数据集; 统计量输出数据集; 要求从协方差阵出发计算主成分,缺省为从相关阵出发计算. 要计算的主成分个数,缺省时全部计算. 主成分名字的前缀,缺省时为PRIN1、PRIN2….
案例 某地 208 名 14 岁男中学生 15 项形态指标测试结果
指标、单位
身 高 (X1) cm 坐 高 (X2) cm 体 重 (X3 ) kg 肩 宽 (X4 ) cm 骨 盆 宽 (X5) cm 手 长 (X6 ) cm 上 肢 长 (X7) cm 小 腿 加足 高 (X8 ) cm 小 腿 长 (X9) cm 足 长 (X10 ) cm 胸 围 (X11 ) cm 大 腿 围 (X12) cm 小 腿 围 (X13) cm 上 臂 紧张 围 (X14) cm 上 臂 放松 围 (X15) cm
累积贡献率≥85%时的主成分的个数就足够了 .最
常见的情况是主成分为2到3个.
四、主分量分析主要作用
1.对原始指标进行综合
以互不相关的较少个综合指标反应众多原始 指标提供的信息. 2.进行综合评价 Y ( 1Y1 2Y2 kYk )
Y: 被 评 价 对 象 综 合 得 分
省份 北京 天津 河北 山西 内蒙 辽宁 吉林 黑龙江 上海 江苏 浙江 GDPx1 1394.89 920.11 2849.52 1092.48 832.88 2793.37 1129.2 2014.53 2462.57 5155.25 3524.79 居民消费 水平x2 2505 2720 1258 1250 1387 2397 1872 2334 5343 1926 2249 固定资产 投资x3 519.01 345.46 704.87 290.9 250.23 387.99 320.45 435.73 996.48 1434.95 1006.39 职工平均 工资x4 8144 6501 4839 4721 4134 4911 4430 4145 9279 5943 6619 货物周转 量x5 373.9 342.8 2033.3 717.3 781.7 1371.1 497.4 824.8 207.4 1025.5 754.4 居民消费价 格指数x6 117.3 115.2 115.2 116.9 117.5 116.1 115.2 116.1 118.7 115.8 116.6 商品零售价 格指数x7 112.6 110.6 115.8 115.6 116.8 114 114.2 114.3 113 114.3 113.5 工业总产值 x8 843.43 582.51 1234.85 697.25 419.39 1840.55 762.47 1240.37 1642.95 2026.64 916.59
找出几个综合指标(长度、围度、特体),这些综合
指标是由原始指标的线性组合而来,既保留了原始
指标的信息,且相互独立. 衡量一个指标的好坏除了正确性与精确性外,还必 须能充分反映个体间的变异,即指标能提供显著的 个体区分度,一项指标在个体间的变异越大,提供
的“信息量”就越多.
各综合指标提供的“信息量”大小用其方差来衡量.
省份 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆
GDPx1 2003.58 2160.52 1205.11 5002.34 3002.74 2391.42 2195.7 5381.72 1606.15 364.17 3534 630.07 1206.68 55.98 1000.03 553.35 165.31 169.75 834.57
例
1 140.0 76.0 36.3 32.0 23.0 16.1 61.1 38.7 32.4 23.1 71.3 41.8 31.6 22.3 20.5 2 141.6 76.2 31.4 29.0 22..0 15.6 60.6 38.8 32.5 21.8 65.7 41.7 29.0 19.8 17.5
n
ki
xi )(xkj x j )
2 2 ( x x ) kj j k 1 n
( xki xi )
(1.3.2)
(二)计算特征值与特征向量
① 解特征方程 I R 0 ,常用雅可比法( Jacobi ) 求出特征值,并使其按大小顺序排列 ;
1 2 p 0
(1.2.1)
系数lij的确定原则:
① z i与zj(i≠j;i,j=1,2,…,m)相互无关;
② z1是x1,x2,…,xP的一切线性组合中方差最大者, z 2 是与 z 1 不相关的 x 1 , x 2 , … , x P 的所有线性组合中 方差最大者 ;…; zm是与z1,z2,……,zm-1都不相关 的x1,x2,…xP, 的所有线性组合中方差最大者.则新 变量指标 z 1 , z 2 , … , z m 分别称为原变量指标 x 1 , x2,…,xP的第1,第2,…,第m主成分.