正交因子分析(设计性实验)(Orthogonal factor analysis)实验原理:因子分析是主成分分析的推广和发展,其目的是用少数几个不可观测的隐变量,即因子,来解释原始变量之间的相关关系,它也是属于多元分析中处理降维的一种统计方法。
因子分析的基本思想是通过变量间的协方差矩阵(或相关系数矩阵)内部结构的研究,寻找能控制所有变量的少数几个因子去描述多个变量之间的相关关系。
因子分析中最常用的数学模型是正交因子模型,其特点是模型中的因子相互之间正交。
实验题目一:下表中给出了二战以来奥运会运动员十项运动成绩的相关系数矩阵:(E9a6) 100米 1.00 . . . . . . . . .跳远 0.59 1.00 . . . . . . . .铅球 0.35 0.42 1.00 . . . . . . .跳高 0.34 0.51 0.38 1.00 . . . . . . 400米 0.63 0.49 0.19 0.29 1.00 . . . . . 110米跨栏 0.40 0.52 0.36 0.46 0.34 1.00 . . . .铁饼 0.28 0.31 0.73 0.27 0.17 0.32 1.00 . . .撑竿跳高 0.20 0.36 0.24 0.39 0.23 0.33 0.24 1.00 . .标枪 0.11 0.21 0.44 0.17 0.13 0.18 0.34 0.24 1.00 . 1500米 -0.07 0.09 -0.08 0.18 0.39 0.00 -0.02 0.17 -0.00 1.00实验要求:(1)试由相关系数矩阵作因子分析;covmat(2)试根据因子载荷,并结合题目背景知识,对公共因子进行命名。
实验题目二:下表中给出了不同国家及地区的女子径赛记录:(t1a7)Country 100 m(s)200 m(s)400 m(s)800 m(min)1500 m(min)3000 m(min)Marathon(min)australi11.222.3551.08 1.98 4.139.08152.37 austria11.4323.0950.62 1.99 4.229.34159.37 belgium11.4123.04522 4.148.88157.85 bermuda11.4623.0553.3 2.16 4.589.81169.98 brazil11.3123.1752.8 2.1 4.499.77168.75 burma12.1424.4755 2.18 4.459.51191.02 canada1122.2550.062 4.068.81149.45 chile1224.5254.9 2.05 4.239.37171.38 china11.9524.4154.97 2.08 4.339.31168.48 columbia11.62453.26 2.11 4.359.46165.42 cookis12.927.160.4 2.3 4.8411.1233.22 costa11.9624.658.25 2.21 4.6810.43171.8 czech11.0921.9747.99 1.89 4.148.92158.85 denmark11.4223.5253.6 2.03 4.188.71151.75 domrep11.7924.0556.05 2.24 4.749.89203.88 finland11.1322.3950.14 2.03 4.18.92154.23 france11.1522.5951.732 4.148.98155.27 gdr10.8121.7148.16 1.93 3.968.75157.68 frg11.0122.3949.75 1.95 4.038.59148.53 gbni1122.1350.46 1.98 4.038.62149.72 greece11.7924.0854.93 2.07 4.359.87182.2 guatemal11.8424.5456.09 2.28 4.8610.54215.08 hungary11.4523.0651.5 2.01 4.148.98156.37 india11.9524.2853.6 2.1 4.329.98188.03 indonesi11.8524.2455.34 2.22 4.6110.02201.28 ireland11.4323.5153.24 2.05 4.118.89149.38 israel11.4523.5754.9 2.1 4.259.37160.48 italy11.292352.01 1.96 3.988.63151.82 japan11.732453.73 2.09 4.359.2150.5 kenya11.7323.8852.72 4.159.2181.05 korea11.9624.4955.7 2.15 4.429.62164.65 dprkorea12.2525.7851.2 1.97 4.259.35179.17 luxembou12.0324.9656.1 2.07 4.389.64174.68 malaysia12.2324.2155.09 2.19 4.6910.46182.17 mauritiu11.7625.0858.1 2.27 4.7910.9261.13 mexico11.8923.6253.76 2.04 4.259.59158.53 netherla11.2522.8152.38 1.99 4.069.01152.48 nz11.5523.1351.6 2.02 4.188.76145.48 norway11.5823.3153.12 2.03 4.018.53145.48 png12.2525.0756.96 2.24 4.8410.69233 philippi11.7623.5454.6 2.19 4.610.16200.37 poland11.1322.2149.29 1.95 3.998.97160.82 portugal11.8124.2254.3 2.09 4.168.84151.2singapor12.32555.08 2.12 4.529.94182.77 spain11.823.9853.59 2.05 4.149.02162.6 sweden11.1622.8251.79 2.02 4.128.84154.48 switzerl11.4523.3153.11 2.02 4.078.77153.42 taipei11.2222.6252.5 2.1 4.389.63177.87 thailand11.7524.4655.8 2.2 4.7210.28168.45 turkey11.9824.4456.45 2.15 4.379.38201.08 usa10.7921.8350.62 1.96 3.958.5142.72 ussr11.0622.1949.19 1.89 3.878.45151.22 wsamoa12.7425.8558.73 2.33 5.8113.04306(数据来源:1984年洛杉机奥运会IAAF/AFT径赛与田赛统计手册)ussr11.0622.1949.19 1.89 3.878.45151.22 rumania11.4423.4651.2 1.92 3.968.53165.45实验要求:(1)根据以上数据对女子径赛项目作因子分析;(2)对公共因子进行解释;(3)计算各个国家的第一因子得分并进行排名。
要求列出排名前10的国家或地区,并给出中国的名次。
实验题目一分析报告:R程序:输出结果及分析:(1)试由相关系数矩阵作因子分析;record<-read.table("data4.txt",head=F) #导入数据record<-record[,-1] #删除第一列record<-as.matrix(record) #将原数据矩阵化options(digits=2) #保留两位小数pca.data1<-princomp(covmat=record)#以相关系数矩阵作为基础,建立主成分分析summary(pca.data1) #输出主成分分析报表为了确定因子分析中因子的数目,我们先对相关系数矩阵做主成分分析表 1主成分分析报表Comp. 1Comp.2Comp.3Comp.4Comp.5Comp.6Comp.7Comp.8Comp.9Comp.10Standarddeviation1.95 1.23 1.060.9560.8490.7710.7260.6190.4850.456 Proportion ofVariance0.380.150.110.0910.0720.0590.0530.0380.0240.021 CumulativeProportion0.380.530.640.7330.8050.8650.9170.9560.979 1.000由方差累计贡献率得到,在第五主成分,累积贡献率达到了80%以上,并趋于稳定。
我们确定因子分析中因子数目为5.fact1.st<-factanal(covmat=record,factors=5,rotation="none") #作因子分析,不旋转fact1.ro<-factanal(covmat=record,factors=5,rotation="varimax")#作因子分析,旋转fact1.st #输出不旋转的结果fact1.ro #输出旋转的结果apply((fact1.ro$loadings)^2,1,sum) #计算共同度做因子分析,得到未旋转的因子载荷以及旋转的因子载荷观察表格中被标注为绿色的两个因子载荷(标枪项目一行),在Factor1中的因子载荷为0.408,在Factor5中的因子载荷为0.401,比较两个因子载荷,0.408>0.401, 因此我们最终选取0.408。
这样一来,我们做因子分时,只需要4个因子即可。
因此,我们下面再做4个因子的旋转因子分析。
fact2.ro<-factanal(covmat=record,factors=4,rotation="varimax")#作因子分析,旋转fact2.ro #输出旋转的结果apply((fact2.ro$loadings)^2,1,sum) #计算共同度(2)试根据因子载荷,并结合题目背景知识,对公共因子进行命名由旋转后的载荷可发现,第一因子中,铅球、铁饼和标枪的载荷较大,可命名为投掷因子;第二因子中,100米和400米的载荷较大,可命名为短跑因子;第三因子中,跳远、跳高、110米跨栏、撑竿跳高较大,可命名为弹跳因子;第四因子中,1500米的载荷较大,可命名为长跑因子。