1.对应分析对应分析表(A correspondence table)是一个两维表(two-way table),表中的单元包含行变量和列表量之间对应测度的一些信息。
所谓的对应测度(The measure of correspondence),可以表明行变量或列变量之间的近似程度(similarity)、密切关系(affinity)、复杂关系(confusion)、关联程度(association)或交互作用(interaction)。
交叉列联表(a crosstabulation)是对应分析表中最普通的一种类型,该表中的单元格包含频数(计数)。
利用SPSS中的列联表分析也可以得到交叉列联表,但是交叉列联表并不总是能够清晰地刻画出行变量和列变量之间的本质关系。
当我们所感兴趣的变量是名义变量(没有内在的次序或秩序)同时还包含很多类型时,这种问题尤其突出。
一个有关职业和早餐谷类食品的交叉列联表,也许能够告诉我们观测单元频数和期望频数是否存在显著差异,但是它很难识别出从事何种职业的人们喜欢哪种类似的早餐食品,同时也很难对早餐口味进行归类。
利用多维空间图形,对应分析可以分析两个名义变量之间的关系。
这种图形称为对应分析图,是利用计算出来的行变量和列变量得分而绘制的。
变量中相似的类型在图形中比较接近,因此通过这种方法可以很容易看出某个变量的哪些类型和其它类型相似,也可以分析出行变量和列变量的哪些类型存在相关性。
SPSS的对应分析方法还容许用辅助点(supplementary points)对根据活动点定义出的空间进行拟合。
如果没有办法根据类型的得分排序,或者这种排序与我们的直觉不相符,那么可以设定某些类型的得分相同,实际上就是对类型的次序设定限定条件。
比如说,我们预期变量“吸烟行为”有四个类型:不吸烟、少量吸烟、适度吸烟和大量吸烟,每一类型都有对应于次序的得分,但是对应分析对这四个类型进行排序时,可以限定适度吸烟和大量吸烟的得分相同。
利用距离来进行对应分析依赖于我们所使用的正态化方法。
对应分析可用来分析一个变量类型之间的差异,同时也可以分析变量(行变量和列变量)之间的差异。
在默认的正态化方法下下,SPSS的对应分析主要用来研究行变量与列变量之间的差异(。
对应分析算法可以进行各种类型的分析。
标准的对应分析以行变量和列变量为中心并且分析这两个变量之间的开方距离。
但是也有其它的中心选项,利用欧式距离,并且以低维空间的矩阵作为代表。
正态化过程将惯量分布到行变量和列变量得分上,不管采用哪种类型的正态化方法,对应分析的某些输出结果,比如奇异值(the singular values)、每个维度的惯量(the inertia per dimension)和贡献度(contributions)并不发生变化。
但是行变量得分、列变量得分和它们的方差却受到正态化方法的影响。
对应分析有多种分散惯量的方法,最常用的方法是将惯量仅仅分散到行得分或列得分上,或者将它对称分散到行得分或者列得分上。
对应分析有下面四种正态化方法:1、行主成分法(Row principal):在行主成分正态化过程中,行点之间的欧氏距离(Euclidean distances)近似于对应分析表中行变量之间的开方距离,行得分是列得分的加权平均,列得分要进行标准化,使得其平方距离的加权和为1(质心)。
由于主成分正态化方法对行类型距离取最大值,如果我们仅仅对行变量各类型之间的差距感兴趣,那么就应该使用这种方法;2、列主成分法(Column principal):在另外一个方面,列点之间的欧氏距离(Euclidean distances)近似于对应分析表中行变量之间的开方距离,此时列得分是行得分的加权平均,行得分要进行标准化,使得其平方距离的加权和为1(质心)。
列成分正态化方法对列类型距离取最大值,如果我们仅对列变量各类型之间的差距感兴趣,那么就应该使用这种方法;3、对称法(Symmetrical):行变量和列变量可以按照一视同仁的方法来处理,这种对称正态化方法将相同的惯量分布到行得分和列得分上。
需要注意的时,此时行点距离或者列点距离与开方距离都不存在近似相等关系,如果我们对两组变量间的差异性或者近似性感兴趣,通常使用这种方法;使用这种方法时,通常还要绘制二维图。
4、主成分法(Principal):第四个选项是主成分正态化(principal normalization),利用这种方法在进行对应分析时,惯量要被分散两次,一次是分散到行得分上,另外一次是分散到列得分上。
如果我们仅对行点之间的距离和列点之间的距离感兴趣,但是并不关心行点和列点之间的关系时,可以使用这种方法。
使用主成分正态化方法时,绘制二维图就不合适了,因此我们使用主成分正态化方法时,就不能选择输出二维图。
例1 吸烟行为与工作类型的关系前面的分析中已经提到过,对应分析的主要目标是利用对应表显示行变量和列变量之间的关系。
本例中使用的数据来自Greenacre(1984),利用他假设的数据来分析职员类型和吸烟之间的关系。
下表是数据中使用的变量名、变量标签和变量标签值:其中变量staff最后一个类型(National Average)和smoke的最后两个类型(No Alcohol 和Alcohol)在分析中作为辅助(supplementary)类型。
打开SPSS中tutorial\sample files文件夹中的smoking.sav .数据文件中的个案以计数值进行了加权,因此在分析之前要以变量count为权数,对个案进行加权,点击Data→Weight Cases...,进入加权个案对话框;选择变量count,移入Weight cases by下Frequency Variable文本框中,点击OK按钮,完成个案的加权;首先使用行主成分正态化的方法来进行对应分析,点击Analyze→Data Reduction→Correspondence Analysis...,进入对应分析对话框;从左侧变量列表框中选择Staff Group为行变量,移入Row Variable方框中,点击Define 按钮,进入定义行变量范围对话框;在minimum value后键入1,maximum value后键入5,设定行变量的类型数为5个,点击Update后再键入Continue按钮,回到对应分析对话框;选定Smoking为列变量,移入Column Variable方框中,点击Define Range按钮,也进入定义行变量范围对话框;在minimum value后键入1,maximum value后键入4,设定列变量的类型数为4个,点击Update后再键入Continue按钮,回到对应分析对话框点击Statistics ,进入对应分析统计量对话框;增加Row profiles 、Column profiles 、Permutations of the correspondence table 以及Confidence Statistics for 下的Row points 和Column points 这几个选项,点击Continue 按钮,回到对应分析对话框,点击OK 按钮,输出对应分析结果。
对应表(correspondence table)显示列变量smoking behavior 和行变量staff group 的分布,也就是说表中每一行对应一类职员,每一列对应一种吸烟行为。
行边际总和(The marginal row totals)显示该公司的高级职员有51人,低级职员有88人,他们的人数远远多于管理人员和秘书;但是高级管理人员(Sr Managers)和低级管理人员(Jr Managers)的吸烟行为的分布,与高级职员和低级职员的情况是非常相似的。
观察列边际总和(column totals),发现不吸烟的人数(nonsmokers)和适度吸烟的人(medium smokers)大体相等。
但是考虑到吸烟行为以后,各种职员是否有某种共同点?工作类型和吸烟行为是否存在某种关系?要回答这些问题还要进行下面的分析。
在理想状态下,对应分析应该在尽可能低的维度中反映出行变量和列变量中的关系。
但是看看上面综述表(Summary)中的最大维度数,可以了解每一维度的相对重要性。
分别将(活动的,active rows)行变量数和(活动的,active columns)列变量数减去1,取它们的最小值,就得到最大维度数(即()min 1,1r c --)。
比如本例中真正进入分析过程的行变量有5个类型,列变量有四个类型,因此本例最多有3个维度(()min 51,413--=)。
从综述表中可以看到第一维度的惯量(inertia ,测度数据变动程度的统计量)最大;第二维度的惯量与第一维度的惯量正交,而且它尽量解释剩下的变动;同样第三维度的惯量也和第二维度正交。
每一维度尽可能对总惯量进行分解,将每一维度的惯量和总惯量进行对比就可以知道每一维度的重要性。
比如本例中第一维度的惯量占总体的87.8%(0.075/0.085),而第二维度仅占11.8%(0.010/0.085)。
如果对应分析结果中有q 个维度,但是前p 个维度已经能显示总惯量的绝大部分,此时我们不需要再关注那个最大维度。
比如本例前两个维度的惯量加起来已占总惯量的99.6%,第三维度仅占总惯量的0.4%,因此两个维度就已足够了。
可以将奇异值(The singular values)理解为行得分和列得分之间的相关系数,它们近似于相关分析中的佩尔森相关系数。
对每个维度来说,奇异值的平方就是特征值(eigenvalue),也就等于惯量inertia ,因此奇异值也是测度每一维度重要性的统计量。
对应分析可以输出很多图形,分析它们可以知道变量类型之间和变量之间潜在的关系。
上面显示的是行得分与列得分在二维空间中的散点图。
解释这个图形比较简单,图中行/列点接近的点,它们的近似程度当然大于那些行/列点较远的点。
第一维度(横坐标)方向,Senior Employees 与Junior Employees 这两个行点之间的距离较远,因此第一维度分离出高级雇员和低级雇员这两个类型;第二维度(纵坐标)方向,Managers 与Employees 、Secretaries 列点之间的距离较大,管理人员和其他类型工作人员在这个维度中被分离出来;使用对称正态化方法很容易观察到工作类型与吸烟之间的关系。
比如从上图中看到Managers 与Heavy smoking 的点较近,管理人员的烟瘾可能都比较大;Senior Employees 与None smoking 比较接近,高级雇员可能不怎么吸烟;Junior Employees 与Medium smoking 或Light smoking 距离较小,低级雇员吸烟不多,他们也有可能适度吸烟;Secretaries 和吸烟行为的距离都较远,从事秘书工作的人没有呈现出特定的吸烟行为(当然他们远离Heavysmoking,不会是瘾君子)。