第10章 典型相关分析
令
V V
ar( X ) E[ X E( X )][X ar(Y ) E[Y E(Y )][Y
E(X E(Y )]T
)]T 11 22
Cov( X ,Y )
E[ X
E( X )][Y
E(Y )]T
12
Cov(Y , X ) E[Y E(Y )][X E( X )]T 21
• 则有
由上式可以看出,使U ,V 有最简单表示的约束为
aT 11 a 1, bT 22 b 1, (2) 这等价于规定Var(U ) Var(V ) 1. 于是典型相关分析即在约束条件(2)下,确定a和b, 使 (1)达到最大。这时称U ,V为典型变量。
如果只有一对U ,V还不足以反映X和Y之间的相关性, 可进一步构造与U,V互不相关的另外一对典型变量, 如此等等。具体的,各对典型变量的定义如下:
1 11
12
1 22
21 ,
B
1 22
21
1 11
12,如前所述,求解A和 B的特征根及其
相应的特征向量,即可得到所要求的典型相关变量
及其典型相关系数。
若样本数据矩阵已经标准化处理,此时样本的协差阵
就等于样本的相关系数矩阵
R
R11
R21
R12
R22
,由此
可得矩阵
A和B的样本估计 A
R 1 11
R12
R 1 22
R21,
B
R 1 22
R21
R 1 11
R12 ,
求解
A和
B的特征根及其相应的特征向量,
即可得到所要求的典型相关变量及其典型相关系数。
第四节 典型相关系数的显著性检验
在作两组变量X(1),X (2)的典型相关分析之前,
首先应检验两组变量是否相关,如果不相关,
即Cov( X(1),X (2) ) 0,则讨论两组变量的典型
变量的具体表达式和相应的典型相关系数。
为便于理解后述定理的内容,我们首先介正 定矩阵的平方根矩阵的概念及其简单性质。
设A为p阶对称正定矩阵,令P (e1, e2, , ep ), 其中ei (i 1,2, , p)为A的p个正交单位化特征向量,
i (i 1,2, , p)为相应的特征值,则i 0(i 1,2, , n)
由主成分分析思想启发,把两组随机变量之间的相 关关系转化为两个随机变量之间的相关关系来考虑。
• 采用主成分分析的方法,每组变量分别提取主成 分,再通过主成分之间的关系反映两组变量之间 的关系。 即考察一组变量的线性组合
Z a1X1 a2 X2 ap XP aT X
与另一组变量的线性组合
W b1Y1 b2Y2 bqYq bTY
a b
0 (3)
0
将上二式分别左乘aT与bT ,则得:
aT bT
12 21
b a
aT
v bT
11 22
a b
v
而(aT 12 b)T bT 12 a, 所以 v aT 12 b.
于是,解方程组(3)归结为解方程组:
-21a11a2212bb00(4)
为
了具体求解,以12
-1 22
左
个变量与多个变量间的相关关系。
• 现实中: 如鸡蛋、猪肉的价格(作为第一组 变量)和相应产品的销量(第二组变量)有相 关关系。如投资性变量(劳力投入、财力投入、 固定资产投资(用一种变量X1,X2….,XP 描述) 等)与国民收入(工农业收入、建筑业收入、 (用另一种变量Y1,Y2…YP描述)等)具有相 关关系。又如:在生物科学中,在研究某生物 种群状况(用一种变量X1,X2….,XP 描述)与 其生活环境(用另一种变量Y1,Y2…YP描述) 之间的相关关系。
乘(4)
中第二式并将
第一式代入,得(12
-1 22
21
-2
11 )a
0,
(5)
以21 1-11 左乘(4)式第一式,并将第二式代入,得
(21 1-11 12 -2 22 )b 0(6)
以 1-11
左乘(5)式,得1-11
12
-1 22
21
a
2a
0(7)
以 -212
左乘(6)式,得
-1 22
21 1-11
V
bTY
b1Y1
b2Y2
bqYq
下面计算U和V的相关系数。由于
V V
ar(U ) ar(V )
Var(aT X Var(bTY )
) aT 11 a bT 22 b
Cov(U ,V ) Cov(aT X ,bTY ) aT 12 b
则U和V的相关系数为
U ,V
aT 12 b
第10章 典型相关分析
• 典型相关分析着眼于识别和量化两组随机变量之 间的相关关系,它是两个随机变量之间的相关关 系在两组变量下的推广。
• 两个随机变量X,Y之间的相关关系可用它们的 相关系数来度量,其定义为
X ,Y
Cov( X ,Y ) Var( X )Var(Y )
但在许多实际问题中,需要研究多
11
1
1
(2)A2 A2 P2 PT P2 PT PPT A;
1
(3)(A2 )1
P
1 2
PT
,
其中-
1 2
1
(2)-1
diag(
1
,
1
,
1 2
,
1
),
通常记(A
12)1为A-
1
2;
p
(4)A
1 2
A
1 2
A1
总体的典型相关系数和典型变量的求法
在约束条件下:Var(U ) aT 11 a 1,Var(V ) bT 22 b 1
之下,寻求a和b使UV aT 12 b达到最大值,根据数学分析
中条件极值的求法,引入Lagrange乘数,可将问题转化为求:
(a, b)
aT
12
b
2
(aT
11
a
1)
v 2
(bT
22
b
1)
的极大值,其中,v是Lagrange乘数。
由极值的必要条件为:
a
b
12 b 11
21 a v 22
如何研究两组变量之间的相关关 系?
• 设两组变量用X1,X2….,XP以及Y1,Y2…YP表示。 分别研究Xi和Yj之间的相关关系,列出相关系数表。其
缺陷:虽然每个Xi和每个Yj之间的相关关系也反映了 两组变量间各对之间的联系,但不能反映这两组变量 整体之间的相关性。孤立地了解各对( Xi ,Yj )之间 的相关性无助于对于实际问题的全面分析和解决。另 外当两组变量较多时,处理较烦琐,不易抓住问题的 实质。
第三节 样本典型相关系数
• 一、样本典型相关变量及典型相关系数的 计算 在实际应用中,总体的协差阵通常是未知 的,往往需要从研究的总体中随机的抽取 一个样本,根据样本估计出总体的协差阵, 并在此基础上进行典型相关分析。
设X
X X
(1) (2)
服从正态分布N
p
q
(
,
),从该总体中抽取样本
容量为n的样本,得到下列数据矩阵:
变量归结为求A、B的特征根和特征向量。
典型变量具有如下性质: (1)V (Uk ) 1,V (Vk ) 1, k 1,2, , r
Cov(Ui ,U j ) 0, Cov(Vi ,Vj ) 0, i j
i 0,i j,i 1,2, , r
(2)Cov(Ui ,Vj ) 0,i j 0, j r
一般地,第k对(k p q)典型变量是Uk akT X和 Vk bkTY ,其中Uk ,Vk具有单位方差,且与前k 1对典型 变量中的每个Ui ,Vi (i 1,2, , k 1)均不相关,在此条件 下并使U k 和Vk的相关系数达到最大。 我们称第k对典型变量间的相关系数为第k个典型相关 系数。利用推导主成分类似的方法,可以给出各典型
X
(2) nq
样本均值向量X
X
(1)
,
其中X
(1)
X (2)
1 n
n a 1
X
(1) a
,
X
(2)
1 n
n a 1
X
(2) a
,
样本协差阵
11
21
12
,
22
其中kl
1 n 1
n
(X
j 1
(k) j
X
(k)
)(X
(l) j
X
T (l)
) ,k,l
1,2
由此可得矩阵A和B的样本估计 A
第一对典型变量是U1 a1T X和V1 b1TY , 其中U1和V1具有 单位方差且使U1和V1的相关系数达到最大。 第二对典型变量是U2 a2T X和V2 b2TY , 其中U2和V2具有 单位方差且使U 2,V2和U1,V1均不相关,即 Cov(U1,U2 ) Cov(U2 ,V1) Cov(V2 ,U1) Cov(V2 ,V1) 0 在上述约束条件下并使U 2和V2的相关系数达到最大。
12 T21 .进一步假定11 和22 是满秩阵(从而是
正定矩阵),令
11 21
12 22
,
这 是(X1, X 2 , , X p ,Y1,Y2 , ,Yq)T的协方差矩阵,
且不失一般性,可设p q.
为研究X和Y的相关关系,考虑两组变量的线性组合
U aT X a1X1 a2 X 2 ap X p
我们用通常符号12
22
2 p1
0表示(其余p
p1个
特征根为0),并称12
22
2 p1