第九章对应分析(一)教学目的通过本章的学习,对对应分析有一个全面地认识,理解对应分析的基本思想和基本原理,掌握用聚类分析解决实际问题的能力。
(二)基本要求了解对应分析的定义,理解对应分析方法的方法和原理,掌握对应分析的计算步骤。
(三)教学要点1、对应分析的定义和基本思想;2、对应分析方法的原理;3、R型因子分析和Q型因子分析的对应关系;4、对应分析方法及计算步骤;(四)教学时数3课时(五)教学内容1、对应分析的基本思想;2、对应分析方法的方法和原理;我们知道,主成分分析、因子分析都是研究多维变量之间相互的关系。
但在某些实际问题中,既要研究变量之间的关系,还需要研究样品之间的关系。
不仅如此,人们往往还希望能够在同一个直角坐标系内直观地同时表达变量和样品之间的相互关系。
为实现这一目的就需要进行对应分析。
对应分析能够提供变量之间,样品之间以及变量和样品之间相互关系的信息。
第一节对应分析的基本思想一、什么是对应分析对应分析(correspondence analysis)又称为相应分析,是一种目的在于揭示变量和样品之间或者定性变量资料中变量与其类别之间的相互关系的多元统计分析方法。
根据分析资料的类型不同,对应分析分为定性资料(分类资料)的对应分析和连续性资料的对应分析(基于均数的对应分析)。
其中,根据分析变量个数的多少,定性资料的对应分析又分为简单对应分析和多重对应分析。
对两个分类变量进行的对应分析称为简单对应分析,对两个以上的分类变量进行的对应分析称为多重对应分析。
一般认为对应分析起源于20世纪30~20世纪40年代的一批互相独立的文献如Richardson 和Kuder(1933)、Hirshfeld(1935)、Horst(1935)、Fisher(1940)、Cuttman (1941)等,很难说哪位统计学家是该方法的真正作者,但所有方法的基本原理是相同的。
这里主要介绍的是1970年由Beozecri提出的主要是用于连续性资料分析的对应分析方法。
对应分析实际是在R型因子分析和Q型因子分析的基础上发展起来的一种方法。
因子分析可以用最少的几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,还把握住了研究对象间的相互关系。
因子分析有R型因子分析和Q型因子分析两种类型,R型因子分析是将变量转换为变量因子,其实质是对变量进行降维和消除相关性,变量因子的个数小于或等于变量的个数,并且变量因子之间不相关。
Q型因子分析是将样品转换为样品因子,其实质是对样品进行降维和消除相关性,样品因子的个数小于或等于样品的个数,并且样品因子之间不相关。
但是,因子分析也有其局限性:一是,R型因子分析和Q型因子分析是分开进行的。
当研究的对象是变量时,通常作R型因子分析,当研究的对象是样品时,则采用Q型因子分析,而且把R型和Q型看成两种分离的概念,无法使R型和Q型因子分析同时进行,这样将R型和Q型割裂开后就会损失很多有用的信息,而且还不能揭示指标与样品之间的相关信息。
二是,在处理实际问题中,样品容量往往较大,使Q型因子分析的计算量非常巨大,比如有100个样品,就要计算100×100阶矩阵的特征根和特征向量,这对于一般小型计算机的容量和速度都是难以胜任的。
三是,在进行数据处理时,为了将数量级相差很大的变量进行比较,需要对变量进行标准化处理,然而这种只按照变量列进行的标准化处理对于变量和样品是非对等的,这给寻找R型因子分析和Q型因子分析的联系带来—定的困难。
对应分析就是为了克服因子分析的上述不足而发展起来的。
对应分析将R型因子分析和Q型因子分析结合起来进行统计分析,它是从R型因子分析出发,而直接获得Q型因子分析的结果。
克服了由于样品容量大,进行Q型因子分析带来的计算上的困难。
另外根据对原始数据进行规格化处理,找出R型因子分析和Q型因子分析的内在联系,可将变量和样品同时反映到相同坐标轴的一张图形上,便于对问题的分析和解释。
对应分析的重要输出结果之一在于,把变量与样品同时反映到相同坐标轴(因子轴)的一张图形上,结合计算结果,在绘出的图形上能够直观地观察变量之间的关系、样品之间的关系以及变量与样品之间的对应关系。
为此也有人认为,对应分析的实质是将变量、样品的交叉表变换成为一张散点图,从而将表格中包含的变量、样品的关联信息用各散点空间位置关系的形式表现出来。
随着计算机软件的应用,对应分析的方法在社会科学和自然科学领域都有着广泛的应用价值。
特别是近年来在市场调查与研究中,有关市场细分、产品定位、品牌形象以及满意度研究等领域正得到越来越广泛的重视和应用。
二、对应分析的基本思想对应分析的关键是利用一种数据变换,使含有p 个变量n 个样品的原始数据矩阵,变换成为一个过渡矩阵Z ,并通过矩阵Z 将R 型因子分析和Q 型因子分析有机地结合起来。
具体地说,首先给出进行R 型因子分析时变量点的协差阵Z Z A '=和进行Q 型因子分析时样品点的协差阵Z Z B '=,由于Z Z '和Z Z '有相同的非零特征根,记为m λλλ≥≥≥ 21,),min(0n p m ≤<,依据证明,如果A 的特征根i λ对应的特征向量为i U ,则B 的特征根i λ对应的特征向量就是i i V ZU ∆,根据这个结论就可以很方便地借助R 型因子分析而得到Q 型因子分析的结果。
因为求出A 的特征根和特征向量后很容易地写出变量点协差阵对应的因子载荷矩阵,记为F 。
则⎪⎪⎪⎪⎪⎭⎫⎝⎛=m pm p p m m m m u u u u u u u u u F λλλλλλλλλ 221122221211212111 这样,利用关系式i i V ZU ∆也很容易地写出样品点协差阵B 对应的因子载荷阵,记为G 。
则⎪⎪⎪⎪⎪⎭⎫⎝⎛=m nm n n m m m m v v v v v v v v v G λλλλλλλλλ 221122221211212111 从分析结果的展示上,由于A 和B 具有相同的非零特征根,而这些特征根正是公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便显示出变量点和样品点之间的相互关系,并且可以一并考虑进行分类分析。
第二节 对应分析方法的方法和原理一、对原始数据规格变换,使R 型和Q 型因子分析有机结合在以往的对实际问题的统计分析中,若变量值的量纲不同以及数量级相差很大时,通常先将对变量作标准化的处理,然而这种对变量进行的标准化处理是按各个变量列进行的,并没有考虑到样品之间的差异,对于变量和样品而言是非对等的,为了使之具有对等性,以便将R 型因子分析和Q 型因子分析建立起联系,就需将原始数据阵)(ij x X =变换成矩阵)(ij z Z =,即将ij x 变换成ij z 之后,ij z 应满足使变量和样品具有对等性,并且能够通过ij z 把R 型因子分析和Q 型因子分析的联系建立起来。
具体数据矩阵Z 是按照如下的方法变换得到的,即......i j i j ij ij x x x x x x z -=其中,∑==pj iji xx 1. ∑==ni ijj xx 1. ∑∑==ij ijxx T ..这一数据变换,实际是根据在列联表上进行独立性检验时,计算2χ统计量的方法所启发得到的。
2χ统计量的计算公式是:∑∑⎪⎪⎭⎫⎝⎛-=i jj i j i ijn n n nn n n ..2..2χ为了便于理解上述的数据变换,下面给出进一步的解释。
设有n 个样品,每个样品有p 项指标,原始资料阵为:⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X212222111211假定矩阵X 的元素0>ij x ,否则对所有的数据同加上一个适当的数,便可满足这个要求,然后写出X 的行和、列和总和,分别记为j i x x ..,和..x 。
其中,∑==j iji xx 1. ∑==ni ijj xx 1. ∑∑==ijijxx T ..。
这里把..x 记为T ,用它去除矩阵X 的每一个元素,相当于改变了测度尺度,使变量与样品具有相同比例大小,即Tx x x p ij ij ij =∆..,显然10<<ij p ,且1=∑∑ijijp,因而ij P 可解释为“概率”,这样得到一个规格化的“概率”矩阵p n ij p P ⨯=)(。
类似地可写出P 阵的行和、列和,分别记为j i p p ..,。
其中∑==j iji pp 1.,∑=niijj pp .。
(一)对于R 型因子分析的情况如果将n 个样品,看成是p 维空间的点,则其n 个点的坐标用⎪⎪⎭⎫⎝⎛..2.1i ip i i i i p p p p p p ,,,(n i ,, 1=)表示,称为n 个样品点。
这实际是用各变量在该样品中的相对比例来表示的一种常见的方法,这样对n 个样品之间相互关系的研究就可转化为对n 个样品点的相对关系的研究。
如果要对样品分类,就可用样品点的距离远近来刻划了。
若引入欧氏距离则任两个样品点k 与l 之间的欧氏距离为∑=-=pj l lj k kj p p p p l k D 12..2)(),(为进一步消除各变量的数量级的不同,如第k 个变量有较大的数量级,在计算距离时就会抬高这个变量的作用尺度差异的影响。
所以再用系数jp .1去乘距离公式就得到一个加权的距离公式,有∑=-=pj j l lj k kj p p p p p l k D 1.2..2*)(),(21....∑=⎪⎪⎭⎫ ⎝⎛-=pj l j lj k j kjp p p p p p 上式也可以说是坐标为⎪⎪⎭⎫⎝⎛...2.2.1.1,,,i p ipi i i i p p p p p p p p pn i ,,1 = 的n 个样品点中两个样品点k 与l 之间的距离。
更进一步的,把各个样品点的坐标写出来,实际上也可以得到概率加权后的样品点的数据矩阵为,⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛p p np p n p n p p p pp p p p p p p pp p p p p p p p p p p p p p p p p p p ..2..21..1..222..2221..221..112..1121..111通过计算两两样品点或两两变量点之间的距离,可对样品点或变量点进行分类,但这样做还不能用图表示出来。
为了更直观地表示变量点和样品点之间的关系,采用R 型因子分析的处理方法时,就需要根据上述的数据矩阵给出变量点协差阵的定义。
为此先给上述数据矩阵中第i 个变量的均值为,j jj niij ji ni i j ij p p p p p p p p p (1)..1===∑∑=p j ,,1 =这里不是求算术平均,而是按概率.i p 进行加权,可以验证上式的结果不仅是诸样品平均点坐标,恰好也是各变量的平均值。