对应分析建模与应用*林海明1 林媛媛21.广东商学院经济贸易与统计学院2.香港科技大学数学系摘要:传统的对应分析是方法不唯一、没有模型的一种统计方法,其在满足对数据进行非线性预处理变换或应用主成分等的条件下,一些变量和样品失去了对应关系,导致结果粗略,甚至不解决问题。
为了完善和发展对应分析,这里根据对应分析的目的,用数学建模方法,给出了相应数学公式,提出了对应分析模型,应用因子分析主成分法的因子分析图—将因子载荷图加到其因子得分图中的图,证明了:因子分析图是对应分析模型的图形解。
给出了一个较清晰的分类标准,用理论和例说明了因子分析图的优良性。
从而建立了对应分析的模型和优化理论。
关键词:对应分析;建模;因子分析图;应用中图文分类号:O212 文献标识码:A一、引言数据的维数不大于3时,数据能显示在立体、平面或直线上,这有助于人们从图形中直观地看出样品的相异性(距离)、变量(指标)的相关性及其方向、变量对样品位置的贡献等特征。
但常见的是,数据的维数大于3,这已不能用常规方法点图。
自20世纪70年代以来,这一直是人们所关注的问题,人们想了不少办法。
其研究的目的之一是:“将原始数据‘拟合’到一个低维坐标系中,使得由降维所引起的任何变形达到最小。
”[1] 当变形是指样品的相异性(距离)或变量的相关性时,是多维标度变换;[1]多维标度变换现在已经成为一种广泛用于心理学、市场调查、社会学、政治学、物理学及生物学等领域的数据分析方法,但其局限性是仅反映样品的相异性或仅反映变量的相似性。
当变形是同时指①样品的相异性(距离)、②变量的相关性及其方向和③变量对样品位置的贡献关系等时,这将是对应分析。
显然,对应分析的理论和方法比多维标度变换更重要、更深入。
目前,国内外流行的对应分析有两个:其一是美国统计学教授R. A. Johnson等[1](2007) 给出的双重信息图,它是将数据阵作标准化的预处理变换,应用主成分分析降维,将变量的信息加到主成分值图中去,从图中可以看出样品之间是如何分组聚集的(无相关性),以及变量对样品位置的贡献;其二是法国统计学家J.P.Beozecri[2](1970)给出的对应分析(下称B氏方法),它是对数据阵作一类似“概率”的列联表,按独立性检验χ2统计量的一般项进行预处理变换,用主成分分析(或初始因子)降维,将变量和样品的主成分(或初始因子)点在同一张图上,使得问题的分析带来许多方便[3]。
以下内容涉及到指标(或称变量)方向,称越大越好的指标为正指标;称越大越不好的指标为负指标(取负数加一常数后有正向意义)或逆指标(取倒数乘一常数后有正向意义)。
现在说明传统对应分析法存在的不足:例1 [1]表12.9列出了1995年美国25所大学本科办学情况的数据,指标为:X1-新生的平均SAT得分,X2-新生中在高中时期名列班上前10%的人数百分比,X3-报名者被接受入*教育部人文社会科学研究规划基金项目资助,项目批准号:09YJA910002;教育部人文社会科学重点研究基地重大项目资助,项目批准号:2009JJD910001;广东省普通高校人文社科研究项目资助,项目批准号:10WYXM020;广东商学院科学研究重点项目资助,项目批准号:08ZD11001。
12学的百分比,X 4-学生与教师的比例,X 5-估计的年费用,X 6-毕业率(%)。
X 1、X 2、X 5、X 6是正指标,X 3是负指标,X 4是逆指标。
样品1-哈佛大学、2-普林斯顿大学、3-耶鲁大学、4-斯坦福大学,5-麻省理工学院是人们认为好的名校。
[1]有双重信息图1,其中横轴是第一主成分轴,纵轴是第二主成分轴,x i 为该方法的变量,编号为样品代码。
给出了相近样品、变量对样品影响的一些分析,但没有注意:(1)双重信息图1没有对负指标X 3和逆指标X 4进行正向变换、主成分分析不能旋转[5],使得变量相关性及其方向不清晰,一些变量失去了应有的方向和意义、一些样品失去了应有的位置特征。
在图1中,正指标X 1、X 5有正、负值(第四象限);逆指标X 4有负、正值(第二象限),即指标X 1、X 4、X 5失去了应有的方向和意义;好的名校5-麻省理工学院的坐标值有正、负值(第四象限)等,即样品5-麻省理工学院等失去了好的位置特征。
(2)B 氏方法没有对负指标X 3和逆指标X 4进行正向的变换,没有旋转功能,对数据阵的预处理变换不是线性变换(证明见后),其降维坐标系没有正向化,使得变量相关性及其方向同样不清晰,且数据变形太大。
通过SAS 9.0过程命令[4],用[2]表12.9的数据得图2,其中横轴是第一因子轴,纵轴是第二因子轴,x i 为该方法的相应变量,编号为样品代码。
在B 氏方法图2中,正指标X 1、X 2、X 6坐标值是负值(第三象限);负指标X 3坐标值是正值(第一象限);正指标X 5、逆指标X 4坐标值有正或有负值(第二或第四象限),即所有指标X 1-X 6失去了应有的方向和意义;名校1-哈佛大学、2-普林斯顿大学、4-斯坦福大学坐标值都是负值(第三象限);名校3-耶鲁大学、5-麻省理工学院坐标值是负、正值(第二象限);指标排20名之后的22-威斯康星大学、24-普度大学坐标值都是正值(第一象限)等,即很多样品失去了应有的位置特征。
(3)迄今对应分析没有模型。
因为其没有目标的数学公式。
上述第(1)种情况经常出现,第(2)种情况具有普遍性,第(3)种情况是客观存在。
为了完善和发展对应分析,重要的是要解决:问题1 如何给出对应分析更好的数据阵预处理变换? 问题2 如何建立有旋转功能的对应分析模型及其理论?据查,上述问题的研究是空白。
这里对负指标、逆指标和适度指标进行正向化变换,根据对应分析的目的,用数学建模方法和因子分析主成分法的因子分析图,解决了上述问题。
DIMENSION 2-0.4-0.10.20.50.8DIMENSION 1-0.4-0.10.20.50.8图2 B 氏方法图DIMENSION 2-5.2-4.9-4.6-4.3-4.0-3.7-3.4-3.1-2.8-2.5-2.2-1.9-1.6-1.3-1.0-0.7-0.4-0.10.20.50.81.11.41.72.02.32.62.9DIMENSION 1-5.2-4.9-4.6-4.3-4.0-3.7-3.4-3.1-2.8-2.5-2.2-1.9-1.6-1.3-1.0-0.7-0.4-0.10.20.50.81.11.41.72.02.32.62.9图1 双重信息图[1]3二、主要结果以下解决问题1。
指标体系有正指标、负指标、逆指标和适度指标。
适度指标是指低于适度值时越大越好,高于适度值时越大越不好;另外,指标间的量纲或均值往往是不相同的。
因此,指标体系通常需要进行预处理,如有正向化变换、标准化变换等。
所谓正向化变换就是把负指标、逆指标和适度指标转化为正指标的变换。
正向化变换:负指标取负数加一常数后有正向意义;逆指标取倒数乘一常数后有正向意义[如见三(1)];适度指标与适度值的绝对差加适度值后取倒数有正向意义。
指标体系有正指标、负指标、逆指标和适度指标时,不易明确指标的方向、样品的位置特征。
指标正向化变换后,保留了指标应有的意义、解决了指标方向一致性和指标对样品位置贡献的明确问题。
标准化变换是将指标均值化为0、方差化为1的线性变换。
正指标间的量纲或均值不同时,样品没有可比性。
正指标作标准化变换,样品有了相对比较的前提,同时能保留指标和样品的应有特征。
综上,对指标体系进行正向化、标准化变换的预处理,解决了问题1。
设A =l k ij a ⨯)(,定义矩阵范数的平方:‖A ‖2=tr (AA ′)(方开泰[3],tr 是方阵的迹)。
为了解决问题2,按照对应分析的目的,要解决的问题是:⑴建立一个低维坐标系,⑵将原始数据中的变量和样品同时表示在该坐标系中,⑶低维坐标系降维所引起的数据变形达到最小。
用数学公式表述是:对应分析模型 设正向化、标准化p 维可观测随机向量x ),,(1'=p x x 的n 个样品数据阵为X p n ij x ⨯=)(,对合适的p m <,⑴在坐标系m F F ,,1 是x 的一个近似变换下,⑵样品X j =),,(1jp j x x 的近似坐标是j X x m F F '=),,(1 ),,(1jm j F F = ( j =1,…,n ),F n ×m m n ij F ⨯=)(,变量x i 的近似坐标是),,1)(,,(1p i l l im i =;⑶求:F ),,(1'=m F F ,L m p ij l ⨯=)(,使:‖X -F n ×m L ′‖2达到最小,这里E (F )=0,Cov (F )=I m ,Cov ( x -LF , F )= 0。
建模说明 (1)E (F )=0,Cov (F )=I m 的说明:用坐标系m F F ,,1 表示变量x 和样品X j ( j = 1,…,n )时,要求m F F ,,1 具有标准化且信息表示不重叠的功能,数学公式是:E (F )=0,Cov (F )=I m 。
(2)Cov (x -LF , F )=0的说明:在坐标系F ),,(1'=m F F 中,x i 的近似坐标是),,(1im i l l),,1(p i =,所以,⎪⎩⎪⎨⎧+++=+++=p m pm p pm m F l F l x F l F l x εε11111111, x = LF +ε,这里ε),,(1'=p εε 是误差向量,显然E (ε)=0,为了LF 、ε表示x 的信息不重复,取:Cov (ε, F )= Cov ( x -LF , F )=0(广2)。
(3)‖X -F n ×m L′‖2达到最小的说明:由建模说明(2)有:x = LF +ε,取数据阵形式有: X =F n ×m L ′+U ,‖X -F n ×m L′‖2=‖U ‖2,4其中U =p n ij ⨯)(ε,),,(1ip i εε =ε′jX x '=,所以,数据变形达到最小的数学公式是:‖X -F n ×m L ′‖2达到最小。
性质1 对应分析模型有旋转功能(证明见附录)。
性质2 对应分析模型中,数据变形与变量相关性变形达到最小等价,且 ‖X -F n ×m L ′‖2= (n -1)tr (R - LL ′) = (n -1)[tr (R )-tr ( LL ′)](证明见附录)。
设x ),,(1'=p x x 的协差阵为R p p ij r ⨯=)(, R 的特征值为p λλ,,1 ,p λλ≥≥ 1,P p p ij e ⨯=)( =(e 1,…,e p ),这里Pe i =i λe i ,PP ′=I p 。