当前位置:文档之家› 第十章典型相关分析

第十章典型相关分析

第十章 典型相关分析(Canonical Correlation Analysis )§10.1 引言一、何时采用典型相关分析1.两个随机变量Y 与 X −−−→−相关关系简单相关系数; 2.一个随机变量Y 与一组随机变量 p X X ,,1 −→−多重相关(复相关系数); 3.一组随机变量q Y Y ,,1 与另一组随机变量p X X ,,1 −→−典型(则)相关系数。

典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例。

典型相关是研究两组变量之间相关性的一种统计分析方法,也是一种降维技术。

二、实例由Hotelling (1935, 1936)最早提出,Cooley and Lohnes (1971)、 Kshirsagar (1972)和 Mardia, Kent, and Bibby (1979) 推动了它的应用。

实例(X 与Y 地位相同)1985年中国28 省市城市男生(19~22岁)的调查数据。

记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为621,,X X X ;机能指标脉搏(次/分)、收缩压(mmHg) 、舒张压(变音)、舒张压(消音)、肺活量(ml)分别为521,,Y Y Y 。

现欲研究这两组变量之间的相关性。

简单相关系数矩阵用简单相关系数描述两组变量的相关关系的缺点:只是孤立考虑单个X 与单个Y 间的相关,没有考虑X 、Y 变量组内部各变量间的相关。

两组间有许多简单相关系数(实例为30个),使问题显得复杂,难以从整体描述。

(复相关系数也如此)。

对于上例,要想研究两组变量间的相关关系,构造线性函数如下:525222121616212111Y a Y a Y a V X a X a X a U +++=+++=要求它们之间具有最大相关性,这就是典型相关分析问题。

§10.2 典型相关分析的统计思想典型相关分析研究两组变量之间整体性的线性相关关系,它是将每一组变量作为一个整体来进行研究而不是分析每一组变量内部的各个变量。

典型相关分析是借助于主成分分析的思想,对每一组变量分别寻找线性组合,使生成的新的变量能代表原始变量大部分的信息,同时,与由另一组变量生成的新的综合变量的相关程度最大,这样一组新的综合变量称为第一对典型相关变量,同样的方法可以找到第二对、第三对…使得各对典型相关变量之间互不相关,典型相关变量之间的简单相关系数称为典型相关系数。

典型相关分析就是用典型相关系数衡量两组变量之间的相关性。

一、典型相关分析的统计思想采用主成分思想寻找第i 对典型(相关)变量:mq p i Y b Y b Y b Y b V Xa X a X a X a U q iq i i i p ip i i i =='=+++='=+++=),min(,,2,1 ,22112211典型相关系数),(i i i V U Corr CanR =典型变量系数或典型权重b a '',,此处X 、Y 是已经过标准化的变量。

记第一对典型相关变量间的典型相关系数为:),(111V U Corr CanR = 使1U 与1V 间最大相关;第二对典型相关变量间的典型相关系数为:),(222V U Corr CanR =使2U 与2V 间最大相关,且分别与11,V U 无关;……。

第i 对典型相关变量间的典型相关系数为:),(i i i V U Corr CanR =,使i U 与i V 间最大相关,且分别与 ,,,,2211V U V U 无关;且0121≥≥≥≥≥i CanR CanR CanR 。

二、典型相关分析的基本理论和方法设有两组随机变量:()()'='=q p Y Y Y Y X X X X ,,,,,,,2121 ,X 、Y 的协方差矩阵为:⎪⎪⎭⎫⎝⎛∑∑∑∑=∑22211211。

设q p <,11∑是第一组变量的协方差阵,22∑是第二组变量的协方差阵,2112∑'=∑是两组变量之间的协方差阵。

且当∑是正定阵时,12∑与21∑也是正定的。

为了研究两组变量 X,Y 之间的相关关系,考虑它们的线性组合:⎩⎨⎧'=+++='=+++=Y b Y b Y b Y b V Xa X a X a X a U q q p p 1212111112121111 我们希望在X 、Y 及∑给定的条件下,选取b a ,使1U 与1V 之间的相关系数()()()max ,),(111→''''==Yb Var X a Var Y b X a Cov V U Corr CanR ,即问题成为 ()m ax ,121→∑'=''=b a Y b X a Cov CanR (1) ⎩⎨⎧=∑'='=∑'='1)(1)(..2211b b Y b Var a a X a Var t s (2)说明:由于随机变量乘以常数不改变它们之间的相关关系,所以可以取标准化的随机变量。

§10.3 总体的典型相关系数和典型变量一、总体的典型相关系数和典型变量的求法在约束条件(2)下,求qpR b R a ∈∈,使得(1)式达到最大。

由拉格朗日乘数法,这一问题等价于:()()max 1212221112→-∑'--∑'-∑'=b b a a b a G μλ,由极值的必要条件得:⎪⎩⎪⎨⎧=∑-∑=∂∂=∑-∑=∂∂0022121112b a aG a b a Gμλ (3)用b a '', 分别左乘(3)式,有⎩⎨⎧=∑'=∑'=∑'=∑'μμλλb b a b a a b a 22121112,又()'∑'=∑'b a a b 1212,所以有()λμ='∑'=∑'=b a a b 1212,即λ恰好是线性组合1U 和1V 之间的相关系数。

于是解方程组(3)归结为解方程组:⎩⎨⎧=∑-∑=∑-∑022121112b a a b μλ (4)以12212-∑∑左乘(4)中第二式并将第一式代入得:()a Aa a a a 222112212111112211221200λλλ=⇒=-∑∑∑∑⇒=∑-∑∑∑---;以11121-∑∑左乘(4)中第一式并将第二式代入得:()b Bb b b b 221211121122222121112100λλλ=⇒=-∑∑∑∑⇒=∑-∑∑∑---说明2λ既是A 又是B 的特征根,b a ,就是其相应于A 和B 的特征向量。

A 和B 的特征根的性质:(1)A 和B 有相同的非零特征根,且相等的非零特征根数目等于p ; (2)A 和B 的特征根非负;(3)A 和B 的全部特征根均在0~1之间。

通常用022221>≥≥≥p λλλ 表示;并称021>≥≥≥p λλλ 为典型相关系数,相应的单位特征向量分别为p p b b a a ,,;,1,1 。

综上所述,有如下定义:定义 在一切使方差为1的线性组合X a '与Y b '中,其中两者相关系数最大的X a U 11'=与Y b V 11'=称为第一对典型相关变量,它们的相关系数1λ,称为第一典型相关系数。

一般地,在定义了1-i 对典型相关变量后,在一切使方差为1且与前1-i 对典型相关变量都不相关的线性组合X a U i i '=与Y b V i i '=中,两者相关系数最大者称为第i 对典型相关变量,其相关系数称为第i 对典型相关系数。

相关系数i λ越大,说明相应的典型变量之间的关系越密切,因此一般在实用中忽略典型相关系数很小的那些典型变量,按i λ的大小只取前几个典型变量及典型相关系数进行分析。

二、典型相关变量的性质1.由p X X X ,,,21 所组成的典型变量p U U U ,,,21 互不相关,由q Y Y Y ,,,21 所组成的典型变量q V V V ,,,21 也互不相关,且它们的方差均等于1,即()()⎩⎨⎧≠==⎩⎨⎧≠==ji ji V V Cov j i ji U U Cov j i j i ,0,1,,0,1,2.同一对典型变量i U 与i V 之间的相关系数为i λ,不同对的典型变量i U 与()j i V j ≠ 之间互不相关,即()⎩⎨⎧≠=≠=j i ji V U Cov ij i,0,0,λ 3.i U , i V 的均值为0,方差为1。

§10.4 样本的典型相关系数和典型变量在实际研究中总体协方差阵∑是未知的,通常用样本数据估计∑。

设)()2()1(,,,n X X X 是来自总体容量为n 的样本,则∑的极大似然估计为:()'--=∑∑=X X X X n i n i i )(1)()(1ˆ其中∑==ni i X n X 1)(1 ,用∑ˆ代替∑,并按照前面的办法求出i i i b a ˆ,ˆ,ˆλ,称iλˆ为样本典型相关系数,称),,2,1(ˆˆ,ˆˆ)2()1(p i X b V X a U ii i i ='='=为样本的典型变量。

并且可以证明i i i b a ˆ,ˆ,ˆλ 分别为总体典型相关系数和典型相关系数向量i i b a ,的极大似然估计量。

计算时也可从样本的相关阵出发求样本的典型相关系数和典型变量。

()ij r R R R RR =⎥⎦⎤⎢⎣⎡=22211211其中p j i s s s r jjii ij ij ,,1,, ==;令⎪⎪⎪⎪⎪⎭⎫⎝⎛=pps s s S00000022111,⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=++++qq p p p p s s s S000002,21,12则有212112222222111111ˆ,ˆ,ˆS R S S R S S R S =∑=∑=∑, 进一步可得:⎩⎨⎧=-=-----0)ˆ)(ˆ(0)ˆ)(ˆ(221211121122122112212111i i i i b S R R R R a S R R R R λλ 则i i b S a S ˆ,ˆ21分别为矩阵2112212111R R R R --与1211121122R R R R --的相应于特征根iλˆ的特征向量, 且有第i 对样本的典型变量:p i X b V X a U ii i i ,,1,ˆˆ,ˆˆ)2()1( ='='=和典型相关系数iλˆ。

典型相关分析示意图:§10.5 典型相关系数的显著性检验在作两组变量的典型相关分析之前,首先应检验两组变量是否相关。

相关主题