典型相关分析应用常见问题分析及处理张路【摘要】在对典型相关分析的功能及使用方法加以简要说明的基础上,重点针对典型相关分析应用中常见问题进行分析,揭示问题产生的原因,鉴别的方法,并提供相应的处理建议.以此为典型相关分析方法的应用者提供参考,期望能够对进一步促进该方法的应用普及发挥积极作用.【期刊名称】《沈阳体育学院学报》【年(卷),期】2011(030)005【总页数】3页(P125-127)【关键词】典型相关;应用;问题;处理【作者】张路【作者单位】沈阳体育学院体育教育学院,辽宁沈阳110102【正文语种】中文【中图分类】G80-32典型相关分析是统计方法家族中的年轻成员,诞生于上世纪30年代,直到70年代才真正臻于成熟。
但由于该方法具有较强的分析能力,其结论具有更普遍的一般性意义,适用范围广,应用价值高,受到了统计工作者和应用者的欢迎。
虽然在早期发展中受到了计算条件的限制,但由于计算机的普及应用,自上世纪80年代起得到了迅速的普及。
由于典型相关分析真正普及应用的时日尚短,在体育实践中成功应用的案例还比较少见。
一方面是由于体育科研人员对典型相关分析方法的了解还比较少,不敢轻易尝试;另一方面是由于目前在国内体育科研中应用比较多的SPSS软件中没有提供现成的菜单命令,使很多应用者不知如何运用该方法;还有一个原因,由于典型相关分析方法应用中可能会出现一些问题,应用者由于对方法掌握不熟练,面对问题不知如何处理,只能认为应用失败而最终放弃。
有鉴于此,笔者在对典型相关分析的功能及使用方法加以简要说明的基础上,重点针对典型相关分析应用中常见问题进行分析,揭示问题产生的原因,鉴别的方法,并提供相应的处理建议,以此为典型相关分析方法的应用者提供参考,期望能够对进一步促进该方法的应用普及发挥积极作用。
1.1 典型相关分析的统计意义典型相关分析是研究两组变量之间相关关系的一种多元统计方法。
典型相关分析的基本思想类似于主成分分析。
首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对本身具有最大的相关性,直到两组变量之间的相关性被提取完毕为止。
这样,讨论两组变量之间的相关就转化为只研究这些线性组合的最大相关,从而减少研究变量的个数。
当两组变量均为单个变量时,典型相关系数就是简单线性相关系数;当两种变量中有一组是单个变量时,典型相关系数则是复相关系数。
因此典型相关分析是相关分析的一种拓广形式。
在体育实践中许多问题可以应用典型分析方法解决,例如社会进步、经济发展对体育的促进作用问题的研究,其中社会、经济状况有多个方面,可以将其作为一组变量;而体育也需要从多个方面来反映,作为另一组变量,研究它们之间的联系;又如体育意识、体育态度与体育行为之间的联系问题,体育意识、体育态度需要多指标来反映,体育行为也需要用多方面的指标来刻划;中老年人群的身体形态与身体健康状况等都存在着两个多变量组之间关系的问题。
1.2 典型相关分析在SPSS中的应用在SPSS中没有提供专门用来进行典型相关分析的菜单命令,但提供了相应的程序过程,可以通过调用该过程进行典型相关分析。
其操作为:在SPSS中打开语法窗口,并键入如下程序语句:CANCORR SETl=y1 y2(列出第一组变量)选择菜单Run→All,运行上述程序,结果窗口中就会给出典型相关分析的结果。
在程序中首先使用Include命令读入典型相关分析过程Canonicalcorrelation.sps(应先确认其存在及路径),然后使用Cancorr语句分两行列出两组变量的列表,注意两个语句最后的“.”表示语句结束,不能遗漏。
1.3 输出结果与分析典型相关分析SPSS主要输出结果如下:典型相关系数:表示由两组变量分别构造的线性组合(典型函数或典型变量)间的相关。
典型分析可以计算K个典型相关系数,K= min(p,q),其中p是第一组变量包含的变量个数,q是第二组变量包含的变量个数。
分析时常用典型相关系数的平方表示一对典型变量的共享方差在两个典型变量各自方差中的比例。
典型相关系数检验:对典型相关系数显著性的检验。
由于典型相关系数是按大小次序排列的,因此如果某个相关不显著,那么其后的所有典型相关系数都将不显著。
典型系数:SPSS对每组变量都给出两组典型系数:标准化系数和粗系数。
典型系数是由原始变量转换为典型变量的权系数(相当于回归系数),可以依此考察变量在典型函数中的作用大小。
由于观测单位影响,因此粗系数之间不能进行类似的比较。
负载系数和交叉负载系数:分别表示典型变量与本组变量及另一组变量两两相关系数(结构相关)。
冗余分析:SPSS对两组变量分别给出两组冗余分析结果。
其一,代表比例:本组所有观测变量的总标准化方差中由本组所形成的典型变量分别代表的比例;其二,冗余指数:一组所有观测变量的总标准化方差中由另一组所形成的典型变量分别代表的比例。
2.1 典型相关系数检验不显著典型相关系数检验是用来间接判定典型相关分析是否具有实际意义。
在实际应用中经常会遇到这样的问题,即从理论和经验上都告诉我们两组变量之间存在较强的联系,但是,应用典型相关进行分析时,其效果并不理想,相关程度较低。
分析如下: 2.1.1 两组变量的关系为非线性在典型相关分析中,如若两组变量的关系为非线性,就很可能得到典型相关系数检验不显著的结果。
因为典型相关模型的基本关系假设是两组变量之间为线性关系,每个典型变量与本组所有观测变量之间为线性关系。
典型相关系数是通过两个组内相关矩阵和一个组间相关矩阵计算的,因此可以查看简相关矩阵。
如果相关程度很低,就应考虑它们之间的关系实际上可能不是简单相关。
处理方法:寻找可能将这种关系转换为线性关系的方法,例如可以对其中的一组变量取对数后再使用,往往会取得更好的效果。
2.1.2 变量个数与样本含量比例在典型相关分析中,如若变量个数与样本含量比例不合适,变量个数比例偏大,必然会影响典型相关系数的显著性。
根据多元回归分析的经验,规模为30的样本在多元相关分析时,一般只能有2至3个自变量显著。
对典型相关分析不仅涉及变量数量,还要涉及维度数问题,样本含量对典型相关系数的显著性影响更大。
例如规模为30的样本,两组分别为5个和2个变量,其维度就应该是2个,经典型相关系数的检验为不显著。
我们通过"克隆"方法将此样本规模扩大1倍,其他关系和条件不变,其检验的结果就变得显著了(表1、2、3、4),可见样本含量的影响很大。
因此,在进行典型相关分析时,样本含量要足够大,否则会影响典型相关的显著性。
当然,也应该注意一味追求增大样本含量的不良反应。
虽然增大样本含量可以使统计检验变得容易显著,但实际的典型相关系数并没发生任何改变。
因此,对于统计检验显著的结果需要认真检查具有标志意义的有关指标,如判定典型相关系数的平方(代表典型变量之间的共享方差比例)是否有实际意义。
处理方法:适当增加样本含量,多元分析中变量个数与样本含量比例通常是按1比5的比例。
2.1.3 组内变量间的相关程度在典型相关分析中,如若组内变量间的相关程度较高也会影响典型相关系数检验的显著性。
例如,沈阳市50~54岁城市男性非体力劳动者的身体形态组与机能组的相关矩阵中身体形态组内各变量的线性相关度较高,身体机能组内各变量属中度相关,相比之下组间的相关却比较弱。
当组内的变量之间高度相关时(表5~表7),一方面反映出对问题特征重复表达,又由于变量个数的限制,不能全面、不同角度地反映该问题的特征;另一方面会弱化本组变量对另组变量的影响作用,使典型相关系数减小,标准误增大,影响典型相关系数的显著性。
处理方法:对欲进行典型相关分析的指标进行筛选,可采用聚类分析和因子分析等方法,确定指标,降低组内的相关程度,会更有利于典型相关分析。
2.2 非定量数据的使用在实际分析数据时,经常需要对非定量资料进行分析,尤其是社会人文类的研究经常会涉及定序甚至定类资料,如性别、文化程度、职业等。
典型相关分析要求数据为定量资料,定序资料、定类资料不能直接使用,以保证典型相关关系的假设。
处理方法:对定序资料、定类资料设置虚拟变量(哑变量),使其成为可以进行典型相关分析的资料。
例如,“文化程度”为定类变量,假设分为5类(1.文盲或半文盲、2.小学、3.初中、4.高中、5.大学及大学以上),需要设置4个虚拟变量,首先以“文盲和半文盲”作为参照类,用ED1、ED2、ED3和ED4分别表示小学、初中、高中、大学及大学以上文化程度,并令:例如:若甲文化程度为小学、乙文化程度为初中、丙的文化程度为文盲或半文盲、丁的文化程度为大学,则他们的虚拟变量值分别如表8。
2.3 数据的分布问题对于典型相关分析,数据要求中提到数据的分布为正态,其假定条件具体要求是:观测变量中所有单变量为正态分布,多变量之间联合分布为多元正态分布。
虽然典型相关分析对于这个假设条件要求并不太严格,但是,对于正态分布的情况下,可以提高相关系数的可靠性。
因此,观测变量的多元正态分布对于统计检验的有效性具有十分重要的意义。
在实际应用中进行多变量之间的多元正态性检验很少见,尚未见到较为简便的检验手段。
处理方法:对观测变量中所有单变量进行正态性检验,对于非正态分布的数据或是进行正态性变量变换,使其成为正态分布;或是适当增大样本含量。
典型相关分析是解答现象间相互关系问题的有效方法,尤其是对复杂现象关系的解析具有其他方法所无法比拟的优势,并且可以作为路径分析等其他多元分析方法的补充,应该引起统计应用者的注意,普及应用,使其发挥应有的作用。
在典型相关分析应用中,一方面需要满足方法的基本假定条件,以期获得准确、有效的统计结果;另一方面,对于应用过程中产生的问题应灵活应对,及时发现问题,并采取有效的对应措施,消除产生问题的根源或影响,取得可用的分析结果。
【相关文献】[1]傅德印,黄健.典型相关分析中的统计检验问题[J].统计研究,2008(7):35-37.[2]王发友.典型相关分析的基本思想和方法步骤[J].科技信息(学术研究),2007(36):57-58.[3]郭志刚.社会统计分析方法—spss软件应用[M].北京:中国人民大学出版社,2004.[4]方开泰.实用多元统计分析[M].上海:华东师范大学出版社,1989.。