6.1 试述主成分分析的基本思想。
答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。
当第一个组合不能提取更多信息时,再考虑第二个线性组合。
继续这个过程,直到提取的信息与原指标差不多时为止。
这就是主成分分析的基本思想。
6.2 主成分分析的作用体现在何处?
答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。
以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的大部分信息。
6.3 简述主成分分析中累积贡献率的具体含义。
答:主成分分析把p 个原始变量12,,,p X X X 的总方差()tr Σ分解成了p 个相互独立的变量
12,,,p Y Y Y 的方差之和1
p
k k λ=∑。
主成分分析的目的是减少变量的个数,所以一般不会使用所有p 个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。
这里我们
称1
p
k k k k ϕλλ==∑ 为第k 个主成分k Y 的贡献率。
第一主成分的贡献率最大,这表明11Y T '
=X
综合原始变量12,,,p X X X 的能力最强,而23,,,p Y Y Y 的综合能力依次递减。
若只取
()m p <个主成分,则称1
1
p
m
m k
k
k k ψλλ
===∑∑ 为主成分1,,m Y Y 的累计贡献率,累计贡献率
表明1,,m Y Y 综合12,,,p X X X 的能力。
通常取m ,使得累计贡献率达到一个较高的百分数(如85%以上)。
6.4 在主成分分析中“原变量方差之和等于新的变量的方差之和”是否正确? 说明理由。
答:这个说法是正确的。
即原变量方差之和等于新的变量的方差之和
6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。
答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。
从协方差矩阵出发的,其结果受变量单位的影响。
主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。
实际表明,这种差异有时很大。
我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R 代替∑。
对于研究经济问题所涉及的变量单位大都不统一,采用R 代替∑后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。
6.6 已知X=()’的协差阵为试进行主成分分析。
解:=0
计算得
当时,
同理,计算得
时,
易知相互正交
单位化向量得,
,
综上所述,
第一主成分为
第二主成分为
第三主成分为
6.7 设X=()’的协方差阵(p为
, 0<p<1
证明:为最大特征根,其对应的主成分为。
证明:
=
=
,
为最大特征根
当时,
=
所以,
6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。
解:令资产总计为X1,固定资产净值平均余额为X2,产品销售收入为X3,利润总额为X4,用SPSS 对这六个行业进行主成分分析的方法如下:
1. 在SPSS 窗口中选择Analyze →Data Reduction →Factor 菜单项,调出因子分析主界
面,并将变量15X X 移入Variables 框中,其他均保持系统默认选项,单击OK 按钮,执行因子分析过程(关于因子分子在SPSS 中实现的详细过程,参见7.7)。
得到如表6.1所示的特征根和方差贡献率表和表6.2所示的因子载荷阵。
第一个因子就可以解释86.5%
表6.1 特征根和方差贡献率表
表6.2 因子载荷阵
2.将表6.2中因子载荷阵中的数据输入SPSS数据编辑窗口,命名为a1。
点击菜单项
中的Transform→Compute,调出Compute variable对话框,在对话框中输入等式:z1=a1 / SQRT(3.46),计算第一个特征向量。
点击OK按钮,即可在数据编辑窗口中
得到以z1为变量名的第一特征向量。
根据表6.3
X
X
Y1X
.0
=
509
+
+
X+
.0
.0
413
4
3
530
.0
537
2
1
3.再次使用Compute命令,调出Compute variable对话框,在对话框中输入等式:
y1x
.0
509
4
x
x
=
+
+
x+
1
*
.0
.0
413
*
*
3
53
*
537
.0
2
根据六个工业行业计算所的y1的大小可得石油和天然气开采业的经济效益最好,煤炭开采和选业其次,接着依次是黑色金属、非金属、有色金属和其他采矿业。
6.9 下表是我国2003年各地区农村居民家庭平均每人主要食品消费量,试用主成分方法对
解:令粮食为X1,蔬菜为x2,食油为x3,猪牛羊肉为x4,家禽为x5,蛋类及其制品为x6,水产品为x7,食糠为x8,酒为x9,用SPSS进行主成分分析的具体方法参见6.8,分析结果如下:
表6.4 特征根和方差贡献率表
表6.5 因子载荷阵
表6.6 特征向量矩阵
根据表6.6
X
X
X
X
X
.0
X
1
001
.0
1X
-
+
+
+
=
054
+
X
Y+
+
X
+
7
501
.0
6
2
388
9
141
.0
8
329
.0
.0
005
.0
.0
456
3
4
51
5
.0
X
X
X
X
X
1
55
.0
2X
X
X
=
+
-
-
.0
-
-
Y+
+
+
+
X
.0
7
119
.0
6
.0
333
9
493
.0
8
408
5
3
185
.0
2
.0
076
142
.0
4
32
9
02.08130.07112.06269.05055.04167.03698.02617.01005.03X X X X X X X X X Y --++-+++-=分别计算出以上三项后,利用公式321321Y Y Y Y ∑∑∑++=λ
λλλ
λλ得到综合得分并排序如下表:
最后的分类可以根据最终得分Y 的值来划分,由于没有给出具体的分类标准,具体分类结果根据各人的主观意愿可以有多种答案。
6.10 根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据,利用主成分分析法对这些地区进行分类。
解:用SPSS 进行主成分分析的具体方法参见6.8,分析结果如下:
表6.7 特征根和方差贡献率表
表6.8 因子载荷阵
根据表6.6得主成分的表达式:
939.0839.0731.064.054.0431.0314.0228.0129.01X X X X X X X X X Y +++-++++= 924.0812.0739.0627.052.0437.0329.0248.0147.02X X X X X X X X X Y -++----+=
分别计算出以上三项后,利用公式2121Y Y Y ∑∑+=
λ
λ
λλ得到综合得分并排序如下表:
最后的分类可以根据最终得分Y的值来划分,由于没有给出具体的分类标准,具体分类结果根据各人的主观意愿可以有多种答案。