当前位置:文档之家› 03第三篇 多元统计分析作业题

03第三篇 多元统计分析作业题

第三篇 多元统计分析作业题1 证明题1)已知ψ==A X E X Z T T T ,这里用到关系1-ψ=E A 。

以二变量为例证明:12*-Λ=ψ=A X A X Z T T T1)(-=T T A X 。

式中X 为标准化原始变量矩阵,A 为载荷矩阵,Z 为非标准化主成分得分,Z *为标准化的因子得分,E 为单位化特征向量构成的矩阵即正交矩阵,Ψ为特征根的平方根的倒数构成的对角阵,Λ为特征根构成的对角阵,对于二变量有⎥⎥⎦⎤⎢⎢⎣⎡=ψ21/10/1λλ, ⎥⎦⎤⎢⎣⎡=Λ2100λλ.2)对于二变量因子模型,我们有⎩⎨⎧++=++=222221122112211111εεu f a f a x u f a f a x . 试以x 1为例证明1222==+jx jju h σ,这里∑==pk kj jah 122221211a a +=。

2 计算题1)现有一组古生物腕足动物贝壳标本的两个变量:长度x 1和宽度x 2。

所测数据如下(表2.1)。

要求:① 利用Excel 对数据进行主成分分析。

② 借助SPSS 对该数据进行主成分分析,并计算结果与Excel 的计算结果进行对比,理解各个表格所给参数的含义。

③ 用本例数据验证证明题⑪的推导结果。

表2.1 古生物腕足动物贝壳标本数据样品编号长度x 1 宽度x 2 样品编号 长度x 1 宽度x 2 1 3 2 14 12 10 2 4 10 15 12 11 3 6 5 16 13 6 4 6 8 17 13 14 5 6 10 18 13 15 6 7 2 19 13 17 7 7 13 20 14 7 8 8 9 21 15 13 99522171310 9 8 23 17 17 11 9 14 24 18 19 12 10 7 25 20 20数据来源:张超,杨秉庚.《计量地理学基础》.2)借助SPSS 对我国1995年社会经济发展的8项指标进行主成分分析,可以给出标准化主成分得分。

数据见下表(表2.2)。

要求开展如下工作。

: ① 利用算术平均值和样本方差对原始数据标准化。

② 借助SPSS 求出全部8个主成分的标准化得分。

③ 将因子得分之间两两进行一元线性回归,至少给出6个回归结果,并对其中一个进行解释(回归结果主要包括模型、测定系数或相关系数)。

④ 将标准化原始变量与因子得分之间进行一元线性回归,至少给出6个回归结果,并解释其中一个相关系数和回归系数。

⑤ 分别以标准化的GDP 、居民消费水平等8个变量为因变量(y ),以8个主成分为自变量(用得分表征),进行多元线性回归,将回归结果表示成主成分模型(8个),然后将回归系数列成表格,并解释其数学含义。

如果以8个标准化的原始变量为自变量,以某个因子为因变量,多元回归结果又说明什么?⑥ 计算相关矩阵的对应的特征向量矩阵,并给出其逆矩阵(Excel 求逆矩阵的命令是minverse )。

⑦ 将SPSS 给出的相关系数矩阵的8个特征根连乘,公式记为∏===81)det(m j jI λλ,然后将相关系数矩阵R 拷贝到Excel ,利用Excel 计算R 的行列式det(R ),比较det(λI )与det(R )的数值关系,并解释其数学含义(附:Excel 连乘的命令为product ,求矩阵行列式的命令为mdeterm )。

⑧ 将标准化主成分得分与因子载荷矩阵相乘,指出其结果的数学意义。

⑨ 将标准化原始数据与因子载荷矩阵的逆矩阵相乘,指出其结果的数学意义。

⑩ 将标准化主成分得分矩阵转置与标准化原始数据矩阵相乘然后除以样品数减1即n -1,观察结果并指出其数学意义。

表2.2 中国30个省市的8项经济指标地区国内生 产总值 工业总 产值固定资 产投资 货物 周转量职工平 均工资 居民消 费水平 消费价 格指数商品零售 价格指数亿元亿元亿元 亿吨公里元元 94年10094年100北京 1394.89 1908.62 519.01 373.9 8144 2505 117.3 112.6 天津 920.11 2094.01 345.46 342.8 6501 2720 115.3 110.6 河北 2849.52 3995.72 704.87 2033.3 4839 1258 115.2 115.8 山西 1092.48 1753.58 290.90 717.3 4721 1250 116.9 115.6 内蒙 832.88 781.73 250.23 781.7 4134 1387 117.5 116.8 辽宁 2793.37 4974.90 887.99 1371.1 4911 2397 116.1 114.0 吉林 1129.20 1428.96 320.45 497.4 4430 1872 115.2 114.2黑龙江2014.53 2203.78 435.73 824.8 4145 2334 116.1 114.3 上海2462.57 5128.97 996.48 207.4 9279 5343 118.7 113.0 江苏5155.25 11812.86 1434.95 1025.5 5943 1926 115.8 114.3 浙江3524.79 8087.75 1006.39 754.4 6619 2249 116.6 113.5 安徽2003.58 3155.88 474.00 908.3 4609 1254 114.8 112.7 福建2160.52 2800.68 553.97 609.3 5857 2320 115.2 114.4 江西1205.11 1291.37 282.84 411.7 4211 1182 116.9 115.9 山东5002.34 8456.32 1229.55 1196.6 5145 1527 117.6 114.2 河南3002.74 4715.11 670.35 1574.4 4344 1034 116.5 114.9 湖北2391.42 4102.58 571.68 849.0 4685 1527 120.0 116.6 湖南2195.70 2451.47 422.61 1011.8 4797 1408 119.0 115.5 广东5381.72 9535.42 1639.83 656.5 8250 2699 114.0 111.6 广西1606.15 1666.10 382.59 556.0 5105 1314 118.4 116.4 海南364.17 193.26 198.35 232.1 5340 1814 113.5 111.3 四川3534.00 4426.37 822.54 902.3 4645 1261 118.5 117.0 贵州630.07 557.14 150.84 301.1 4475 942 121.4 117.2 云南1206.68 1206.55 334.00 310.4 5149 1261 121.3 118.1 西藏55.98 8.99 17.87 4.2 7382 1110陕西1000.03 1182.72 300.27 500.9 4396 1208 119.0 117.0 甘肃553.35 824.73 114.81 507.0 5493 1007 119.8 116.5 青海165.31 148.64 47.76 61.6 5753 1445 118.0 116.3 宁夏169.75 197.50 61.98 121.8 5079 1355 117.1 115.3 新疆834.57 802.02 376.95 339.0 5348 1649 119.7 116.7 资料来源:1996年《中国统计年鉴》,见/ndsj/information/njml.html。

3)已知2004年中国主要城市空间质量的指标,变量和样品与课本中的例子完全相同。

要求借助SPSS开展因子分析,并回答如下问题。

①分析的结论与课本中给出的2003年的情况有何异同?②对比2003年和2004年的因子分析结果,能否发现性质不太稳定的变量?如果要你采取两个变量建立空气质量的分析模型,最好采用什么变量?为什么?③在数据表中缺失一个数据,有什么解决办法?如果要求你利用因子分析结果对全国31个城市排序(必须包括乌鲁木齐),你在SPSS中的有关选项中应该如何选择(参见实习部分)?表2.3 中国主要城市空气质量指标(2004)单位:毫克/立方米,天年《中国统计年鉴》,见:/tjsj/ndsj/2005/indexch.htm。

4)载荷矩阵是主成分分析(PCA)和因子分析(FA)的关键,必须熟悉其来龙去脉。

借助任一一个实例、任意一个软件开展主成分分析和因子分析,通过实例回答如下问题。

①正交矩阵是怎么来的,它是如何变成载荷矩阵的?②SPSS不会给出正交矩阵,有没有办法通过载荷矩阵和方差共献将其计算出来?③载荷矩阵有是如何变成成分得分系数矩阵的?④成分得分系数矩阵如何与原始数据相乘成变成因子得分的?⑤标准化原始数据矩阵转置后与因子得分矩阵相乘,除以自由度(n-1),是否就是载荷矩阵?5)已知郑州、洛阳二城市某年份的三个指标如下表(表2.4)。

要求:试用Excel计算如下距离测度。

如果有哪一种距离不能计算,请说明原因。

①欧式距离及欧式距离平方。

②明氏(Minkowski)距离(取q=1)。

③B模距离中的精度加权距离。

④马氏(Mahalanobis)距离。

⑤兰氏(Canberra)距离。

⑥自己定义一种距离。

⑦夹角余弦。

⑧相似系数。

表2.4 郑州洛阳两城市的三个变量城市非农业人口(万)工业总产值(亿元)建成区面积(平方公里)城市甲(A)169.24 91.19 1426)为将日本的福冈甜桔引种中国,需要选择一个生态条件合适的城市辖区,分析指标和候选对象见课文。

为实现上述目标,可用聚类分析进行判断,最先与福冈聚为一类的生态条件可能最接近,但距离和方法必须选择得当。

要求如下。

①请用Excel和Word完成基于欧式距离的最长距离法聚类过程。

②然后借助SPSS,采用其它的距离,选择另外的一些方法聚类,直到结果与基于模糊数学分析的“相似优先比”给出的结果接近为止。

3 分析题列表总结各种距离和聚类方法的优点和缺点。

4 应用题下表是山东省16个主要城市的交通里程构成的距离矩阵。

要求开展如下分析:①假如要在这16个城市之间建设某种网络系统,请问如何连接才可以使得材料最省?②写出大致的分析过程,并将分析结果表示在地图上。

相关主题