第四章 习题
一、习题4.4
解:(1)通过SAS 的proc princomp 过程对相关系数矩阵R 做主成分分析,得到个主成分的贡献率以及累计贡献率如表1所
表 1
从表中可以得到特征值向量为:
]0.2429 0.4515 0.5396 0.8091 2.8567[=*λ
第一主成分贡献率为:57.13 % 第二主成分贡献率为:16.18 % 第三主成分贡献率为: 10.79% 第四主成分贡献率为:9.03 % 第五主成分贡献率为:6.86 %
进一步得到各主成分分析结果如表2所示:
表 2
(2)由(1)中得到的结果可知前两个主成分的累积贡献率为73.32%,得到第一主成分、第二主成分为:
54212.044215.034702.024571.014636.01x x x x x Y ++++=*
55820.045257.032604.025093.012404.02x x x x x Y ++---=*
由于1*Y 是五个标准化指标的加权和,由此第一主成分更能代表三种化工股票和两种石油股票周反弹率的综合作用效果,1*Y 越大表示各股票的综合周反弹率越大。
*
2Y 中关于三种化工股票的周反弹率系数为
负,而关于两种石油的系数为正,它放映了两种石油周反弹率和三种化工股票周反弹率的对比,*
2Y 的绝对值越大,
表明两种石油周反弹率和三种化工股票周反弹率的差距越大。
二、习题4.5
解:(1)利用SAS 的proc corr 过程求得相关系数矩阵如表3:
表 3
(2)从相关系数矩阵出发,通过proc princomp 过程对其进行主成分分析,表4给出了各主成分的贡献率以及累积贡献率:
表4
第一主成分贡献率为:38.70 % 第二主成分贡献率为:29.59 % 第三主成分贡献率为:11.50% 第四主成分贡献率为:8.82 % 第五主成分贡献率为:6.23 % 第六主成分贡献率为:2.87 % 其中前两个主成分的累计贡献率为68.29%
(3)通过上面的计算得到各主成分,见表5:
表5
8
5093
.
7
3171
.
6
6927
.
5
02169
.
4
2541
.
3
0185
.
2
5192
.
1
2496
.
1
x
x
x
x
x
x
x
x
Y
+
+
+
+
+
-
+ =
0.0871x8
-0.2607x7-0.1347x6
+0.5754x5+0.5381x4+0.4754x3+0.0376x2--0.2413x12 Y
由于是1Y 八个标准化标值的加权值,因此它反映了平均消费数据的综合指标。
对于Y1,它反映了各省人均消费水平,除烟茶酒外,其他支出越高,其人均总体消费水平越高,而烟茶酒对其消费水平评价成反方向。
在Y 2中人均粮食,人均副食品,人均燃料,人均非商品的系数为负;人均烟茶酒、人居其他副食、人均衣着、人均日用品系数为正,说明Y2的绝对值越大,各省人均消费的在生活必需品与高档品差异越大。
根据第一主成分的得分对各个省份进行排序,见表6:
表 6
Obs location Prin1
Obs location Prin1
1 广东 6.89591 16 宁夏 -0.43040
2 上海 3.24842 17 湖南 -0.51802
3 北京 1.7921
4 18 陕西 -0.61274 4 浙江 1.51507 19 云南 -0.66670
5 海南 1.4011
6 20 新疆 -0.81850 6 福建 1.15390 21 青海 -1.11335
7 广西 1.05651 22 安徽 -1.11496
8 天津 0.43543 23 甘肃 -1.18223
9 江苏 0.15329 24 内蒙古 -1.25819 10 辽宁 0.04520 25 贵州 -1.25934 11 西藏 -0.13324 26 吉林 -1.29370 12 四川 -0.13489 27 黑龙江 -1.32567 13 山东 -0.14112 28 河南 -1.48595 14 湖北 -0.17044 29 山西 -1.68448 15 河北
-0.39220
30 江西
-1.96091
三、习题4.6
解:(1)通过SAS的proc princomp过程计算得到样本协方差矩阵见表7:
表7
求得协方差矩阵的特征值以及各样本主成分的贡献率、累计贡献率结果如表8:
表8
从以上结果可看出前三个主成分贡献率已占89.38%,大于剩下三个成分的总和,已包含原始数据的大量信息,所以保留前三个主成分即可。
(2)通过SAS的proc princomp过程对其相关系数矩阵进行主成分分析,首先得到相关系数矩阵见表9:
表9
求得协方差矩阵的特征值以及各样本主成分的贡献率、累计贡献率结果如表10:
表10
从以结果可看出前四个主成分贡献率已占84.59%且第四个主成分的贡献率都占到总信息量的的14.53%,与剩下两个成分的总和差不多,所以保留前四个主成分即可。
我认为基于协方差矩阵S的分析结果更合理。
因为由协方差矩阵S 输出结果可以看出前三个主成分的贡献率就可达到89.38%大于相关系数矩阵R分析得到前四个主成分贡献率总和84.59%,且空腹和摄入食糖的测量数据量纲相等无需进行标准化数据,所以基于协方差矩阵S的分析结果更为合理。
四、习题4.8
(1)通过proc cancorr 过程求得以下结果:
表 11
11
11122221
--R R R R 两个特征值分别为
157698.02
1=∧ρ 0053.02
2=∧
ρ
计算得到各典型变量系数见表下表:
所以有
第一对典型变量为:
2
112114564.01019.10330.12478.1Y Y W X X V -=-=
第一对典型相关系数397.0ˆ1=ρ
; 第二对典型变量为:
2
122120030.10071.07687.03180.0Y Y W X X V +-=+=
第二对典型相关系数07289.0ˆ2=ρ
(2)对典型变量进行显著性检验,结果见表12,其中P1=0.001<0.05,
P2=0.001<0.05,故两对变量都显著相关。
表 12
五、习题4.9
(1)首先计算得到协方差系数矩阵:
进而从协方差系数矩阵计算得到典型变量系数:
所以有
第一对典型变量为:
2
1121180222.05024.007074.005657.0Y Y W X X V -=+=
第一对典型相关系数37716.0ˆ1=ρ
; 第二对典型变量为:
2
1221226208.017615.018695.013997.0Y Y W X X V +-=+-=
第二对典型相关系数99711.0ˆ2=ρ
(2)计算得到样本相关系数矩阵:
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢⎢
⎢
⎣⎡= 1.00000.73460.70860.6932
0.73461.00000.70400.71080.70860.69321.00000.73460.70400.71080.73461.0000R
从相关系数矩阵出发,进行典型相关变量分析:
所以有
第一对典型变量为:
*
*
*
*
**-=+=2
112115383.05044.05215.05522.0Y Y W X X V
第一对典型相关系数为:37716.0ˆ1=ρ
第二对典型变量为:
*
**
*
*
*
+-=+-=2
1
22127586.17686.13784.13664.1Y Y
W X X V
第二对典型相关系数为:99711.0ˆ2=ρ
因为样本中测量的数据的量纲都是相同的,所以无论是从协方差系数矩阵还是相关系数矩阵进行典型相关分析,得到的结果是一样的。
对典型变量进行显著性检验,结果见表13:
表13
取显著水平为0.05,其中第一对典型变量的检验p值为0.003,小于0.05,所以第一对典型变量显著相关,而第二对典型变量的检验p值为0.8031,大于0.05,所以第二对典型变量不是显著相关。