当前位置:文档之家› 第10章 典型相关分析

第10章 典型相关分析


X2
0.80 1.00 0.33 0.59 0.34
Y1
ቤተ መጻሕፍቲ ባይዱ
0.26 0.33 1.00 0.37 0.21
Y2
0.67 0.59 0.37 1.00 0.35
Y3
0.34 0.34 0.21 0.35 1.00
W V11ab111Y X 111ba22Y 11X 2 2 b3Y 13
(V1,W 1)?
V 1 X 1 2 X 2 p X p'X
和 W 1 Y 12 Y 2 q Y q'Y
之间有最大可能的相关,基于这个思想就产生了典型相关分析.
§10.1 总体典型相关
设 X(X1, ,Xp)'及 Y(Y1,,Yq)'为随机向量,我们用
X 和 Y 的线性组合 ' X 和 'Y 之间的相关性来研究两组随机变量
V2a12 X1a22 X2 ap2Xp W 2b1Y 21b2Y 22 bq2Yq
V2和W2与V1和W1相互独立,但V2和W2相关.如 此继续下去,直至进行到 r 步,两组变量的相关性 被提取完为止. R min(p,q),可以得到 r 组变量.
典型相关的数学描述
一般地,假设有一组变量X1,…,Xp与Y1,…,Yq ,我们要 研究这两组变量的相关关系,如何给两组变量之间的相
为了了解家庭的特征与其消费模式之间的关系。 调查了70个家庭的下面两组变量:
XX12: :每 每年 年去 外餐 出馆 看就 电餐 影的 频率频 率 Y1:户主的年龄 Y2:家庭的年收入 Y3:户主受教育程度
分析两组变量之间的关系。
变量间的相关系数矩阵
X1
X2
Y1
Y2
Y3
X1
1.00 0.80 0.26 0.67 0.34
➢ 典型相关关系研究两组变量之间整体的线 性相关关系,它是将每一组变量作为一个 整体来进行研究而不是分析每一组变量内 部的各个变量.所研究的两组变量可以是 一组为自变量,而另一组变量为因变量; 两组变量也可以是同等的地位,但典型相 关关系要求两组变量都至少是间隔尺度.
通常情况下,为了研究两组变量
关性以数量的描述?
当 p=q=1 时,就是研究两个变量 X 与 Y 之间的相关关系.相 关系数就是最常见的度量,其定义为
XY
Co(Xv,Y) Va(Xr) Va(Yr)
当 p≥1 , q=1(或 q≥1, p=1) 时, p维随机向量 X(X1, ,Xp)',
设 YX~Np1(,2), YXXX
XY
(1)ak' X,bk'Y和前k面 1对典型相关变量 关;都不 (2 )V(a a k 'X ) r1 ,V(b a k 'Y ) r 1 ; (3)ak' X和bk'Y的相关系数最 , 大
第十章 典型相关分析
Canonical Correlation Analysis
何时采用典型相关分析
1. 两个随机变量Y与X
简单相关系数
2. 一个随机变量Y与一组随机变量X1,X2,…, Xp 多重相关(复相关系数)
3. 一组随机变量Y1,Y2,…,Yq与另一组随机变量
X1,X2,…,Xp
典型相关系数
X 和 Y 之间的相关性.我们希望找到 和 ,使 ('X,'Y)最大.
由相关系数的定义
('X,'Y) C(o 'X v,'Y) V(a 'X r) V(a'Y r)
易得出对任意的常数 e , f , c 和 d ,均有
[ e ('X ) f,c ('Y ) d ] ('X ,'Y )
Y1
X1
V2 a12X1a22X2 W2 b12Y1b22Y2b32Y3
Y2
X2
(V2,W 2)?
Y3
典型相关分析的思想:
首先分别在每组变量中找出第一对线性组 合,使其具有最大相关性,
V1a11 X1a21 X2 ap1Xp W 1b1Y 11b2Y 12 bq1Yq
然后再在每组变量中找出第二对线性组 合,使其分别与本组内的第一线性组合不相 关,第二对本身具有次大的相关性。
(a 1 'X ,b 1 'Y ) V( a 'X m ) r 1 ,V( a 'Y a ) r 1( x 'X , 'Y )
则称 a1' X,b1'Y是X,Y的第一组(对)典型相关变量,它们之间的相
关系数称为第一个典型相关系数.
如果存在 ak(a1k, ,apk)' 和 bk(b1k, ,bq)k' ,使得
典型相关是简单相关、多重相关的推广; 或者说简单相关系数、复相关系数是典型相关 系数的特例。
典型相关是研究两组变
量之间相关性的一种统计分析 方法.也是一种降维技术.
由Hotelling (1935, 1936)最早提 出,Cooley and Lohnes (1971)、 Kshirsagar (1972)和 Mardia, Kent, and Bibby (1979) 推动了它的应用。
❖ 什么是典型相关分析?
❖ 典型相关分析是研究两组变量之间相 关关系的一种多元统计分析方法.它借用 主成分分析降维的思想,分别对两组变量 提取主成分,且使两组变量提取的主成分 之间的相关程度达到最大,而从同一组内 部提取的各主成分之间互不相关,用从两 组之间分别提取的主成分的相关性来描述 两组变量整体的线性相关关系.
(X1,X2, ,Xp) (Y1,Y2,,Yq)
的相关关系,可以用最原始的方法,分别计 算两组变量之间的全部相关系数,一共有pq 个简单相关系数,这样又烦琐又不能抓住问 题的本质。如果能够采用类似于主成分的思 想,分别找出两组变量的各自的某个线性组 合,讨论线性组合之间的相关关系,则更简 捷。
例 家庭特征与家庭消费之间的关系
Y
Y
,
则称
R YXX1XXY
Y Y
为Y与X1,…,Xp的全相关系数,全相关系数用于度量一个随机变量 Y与一组随机向量X1,…,Xp的相关关系.
当 p , q >1时, 利用主成分分析的思想,可以把多个变量与多个 变量之间的相关化为两个新的综合变量之间的相关.也就是
求 (1,,p)' 和 (1, ,q)',使得新的综合变量
这说明使得相关系数最大的 'X和'Y并不唯一.故求综合变量
常限定 Va(r 'X)1, Va(r'Y)1.于是有以下定义.
定义10.1.1 设 X(X1, ,Xp)' ,Y(Y1, ,Yq)' , p+q 维随机
向量
X Y
的均值向量为0,协方差阵 >0(不妨设p≤q).如果
存在 a1(a11 , ,ap1)' 和b1(b1,1 ,bq1)' ,使得
相关主题