实验五对应分析
姓名:***
学号:*********
班级:11级统计2班
对应分析
一实验目的:
(1)掌握对应分析方法在spss软件中的实现。
(2) 熟悉对应分析的用途及操作方法。
二准备知识:
对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。
可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。
是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。
另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
三实验思想:
是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
首先编制两变量的交叉列联表,将交叉列联表中的每个数据单元看成两变量在相应类别上的对应点;然后,对应分析将变量及变量之间的联系同时反映在一张二维或三维的散点图;最后,通过观察对应分布图就能直接地把握变量之间的类别联系。
四实验内容:
五实验步骤:
(1)数据录入。
打开SPSS数据编辑器,建立“对应分析.sav”文件。
在变量视窗中录入3个变量,用A表示“地区”,用B表示“死因”,用C表示“频数”,对A 变量和B变量输入对应的标签和值,C变量输入对应的标签。
然后在数据视图中将数
据对应录入。
(2)进行对应分析。
依次点击“Data→Weight Cases →”再将“频数”导入“频率变量”,依次点击“analyze-data reduction→correspondence→将地区导入行→定义全距→最小值为1,最大值为12。
将死因导入列→定义全距→最小值为1,最大值为10,。
点击更新→点击继续”。
六实验结果:
对应表
对应表:是地区与死因的交叉列联表,表中的数据为相应的频数,有效边际是相应的合计数据。
可以看到,某省12个地区10种恶性肿瘤的死亡率的数据,可以看出八,十一地区的死亡率较高,而在所有地区中肠癌,肺癌的死亡率最高。
尽管通过对应表发现消地区与死因的某些联系,但没有揭示出具体的规律。
摘要表
若将“对应表”中的数据看为一个矩阵A ,则“摘要”中的惯量为AA ’的特征值i λ,奇异值为对应特征值开根所得的结果,“Inertia ”为惯量,是度量行列关系的强度。
惯量比例中的“解释”为各特征值所占特征值总和的百分比,即方差贡献率9
1
/
i i i
λλ=∑。
在“摘要”中,由对应分析的基本原理可知,提取的特征根个数为1},min{-c r ,这里,由于地区有12个水平(r =12),死因有10种(c=10),因此惯量,也即特征值。
其中第一个特征根的值最大,意味着它解释各别差异的能力最强,地位最重要,其他特征根的重要性依次下降,特征根的总和为0.272;第四、第五列是对交叉列联表作卡方检验的卡方观测值(308.376)和相应的小p 值(0.000),由于小p=0.000<0.05α=,因此拒绝原假设,认为行变量和列变量有显著的相关性关系;第六列是各个特征根的方差贡献率,第一个特征根的方差贡献率为0.425,方差贡献率是最高的;第七列是各特征根的累计方差贡献率,由于前两个特征根就已经解释了各类别差异的75.7%,因此最终提取2个因子是可行的,信息丢失少。
概述行点
概述行点:显示了行变量各分类降维的情况,表中的“Mass”表示行变量占各变量总和的百分比,“维中的得分”为各变量在各公共因子上的得分。
第二列是行变量各类别的百分比;第三、第四列是行变量各类别在第1、第2个因子上的因子载荷,它们将成为分布图中的数据点的坐标;第五列为各特征根;第六、第七列是行变量各分类对第1、第2个因子值差异的影响程度;五地区对第1个因子值的差异影响最大(21.5%),一地区对第2个因子值的差异影响最大(35.7%),第八、第九、第十列是第1、第2因子对行变量各分类差异的解释程度。
一地区对第1个因子解释了1.3%的差异,第2个因子解释了93.4%的差异,两因子共解释了94.7%的差异。
七地区的信息丢失较为严重。
概述列点
概述列点:显示了列变量各分类降维的情况,表中的“Mass”表示列变量占各变量总和的百分比,“维中的得分”为各变量在各公共因子上的得分。
第二列是列变量各类别的百分比;第三、第四列是列变量各类别在第1、第2个因子上的因子载荷,它们将成为分布图中的数据点的坐标;第五列为各特征根;第六、第七列是列变量各分类对第1、第2个因子值差异的影响程度;食道癌对第1个因子值的差异影响最大(63.7%),胃癌对第2个因子值的差异影响最大(69.6%),第八、第九、第十列是第1、第2因子对列变量各分类差异的解释程度。
食道癌对第1个因子解释了88.5%的差异,第2个因子解释了9.7%的差异,两因子共
解释了98.2%的差异。
鼻咽癌的信息丢失较为严重。
行和列点
对称的标准化
可以看出,一地区偏向于胃癌;二地区相对偏向于鼻咽癌;三地区偏向于白血病,宫颈癌;四地区地区偏向于鼻咽癌;五地区偏向于食道癌;六地区偏向于癌肠;七地区偏向于肝癌;八地区比较孤立,相对偏向于鼻咽癌;九地区偏向于白血病;十地区比较孤立,相对偏向于食道癌;十一地区偏向于肠癌,肝癌;十二地区偏向于肺癌,白血病。
最终我们可以看出各个地区对应的死因分别为:
一地区<——> 胃癌;
二地区<——> 鼻咽癌;
三地区<——> 白血病,宫颈癌;
四地区<——> 鼻咽癌;
五地区<——> 食道癌;
六地区<——> 癌肠;
七地区<——> 肝癌;
八地区<——> 鼻咽癌;
九地区<——> 白血病;
十地区<——> 食道癌;
十一地区<——> 肠癌,肝癌;
十二地区<——> 肺癌,白血病;
符号<——>表示这种关系是相互的。