当前位置:文档之家› 第九章典型相关分析

第九章典型相关分析

一、典型相关分析的概念及基本思想
❖ 典型相关分析就是研究两组变量之间相关关 系的一种多元统计分析的方法。它能够揭示 两组变量之间的内在联系。
❖ 我们知道,在一元统计分析中,用相关系数 来衡量两个随机变量之间的线性关系;用复 相关系数研究一个随机变量和多个随机变量 的线性相关关系。对于两组随机变量之间的 相关关系如何分析呢?
二、典型相关的数学描述
(一)想法 考虑两组变量的向量
Z (x1, x2,, xp , y1, y2,, yq )
其协方差阵为
Σ
Σ11 Σ21
p
Σ12 p Σ22 q
q
其中11是第一组变量的协方差矩阵;22是第二组变量的协方差 矩阵;12 和21是X和Y的其协方差矩阵。
如果我们记两组变量的第一对线性组合为:
(二)典型相关系数和典型变量的求法
在约束条件 Var(u1) 1111 1 Var(v1) 1221 1 下,求1和1,使uv达到最大。
根据数学分析中条件极值的求法,引入Lagrange乘数, 求极值问题,则可以转化为求
(1,
1)
112
1
2
(1111
1)
2
(122
1
1)
(1)
的极大值,其中和是 Lagrange乘数。
在剩余的相关中再求出第二对典型变量和他们的 典型相关系数。设第二对典型变量为:
u2 2 x v2 2 y
在约束条件:Var(u2 ) 2112 1
Var(v2 ) 2222 1
cov(u1,u2) cov(1x,2 x) 1112 0
cov(v1,v2) cov(1y, 2 y) 1112 0
量的线性组合与另一组变量的线性组合之间的相关关
系分析。
例 家庭特征与家庭消费之间的关系
为了了解家庭的特征与其消费模式之间的 关系。调查了70个家庭的下面两组变量:
xx12::每每年年去外餐出馆看就电餐影的频频率率
y1:户主的年龄
y2:家庭的年收入
y3:户主受教育程度
分析两组变量之间的关系。
变量间的相关系数矩阵
被选出的线性组合配对称为典型变量,它 们的相关系数称为典型相关系数。典型相关系 数度量了两组变量之间联系的线性组合。
u2和v2与u1和v1相互独立,但u2和v2相关。 如此继续下去,直至进行到r步,rmin(p,q), 可以得到r组变量。
U (u1,, ur ),V (v1,, vr )
从而达到降维的目的。
X1
X2
y1
y2
y3
X1
1.00 0.80 0.26 0.67 0.34
X2
0.80 1.00 0.33 0.59 0.34
y1
0.26 0.33 1.00 0.37 0.21
y2
0.67 0.59 0.37 1.00 0.35
y3
0.34 0.34 0.21 0.35 1.00
(u1,v1) ?
u1 1X v1 1Y
其中: 1 (a11, a21,, ap1)
1 (11, 21,, q1)
Var(u1) 1Var( X )1 11 1 Var(v1) 1Var(Y )1 1221 1
u1,v1 Cov(u1, v1) 1Cov( X ,Y )1 1121
所以,典型相关分析就是求1和1,使二者的相关系数 达到最大。
在工厂里常常要研究产品的q个质量指标
P个原材料的指标
之间的相关关系;也可
以是采用典型相关分析来解决的问题。如果能够采用
类似于主成分的思想,分别找出两组变量的线性组合
既可以使变量个数简化,又可以达到分析相关性的目
的。典型相关分析的目的就是识别并量化两组变量之
间的联系,将两组变量相关关系的分析转化为一组变
y1
x1 y2
x2
(u2,v2 ) ?
y3
典型相关分析的思想:
首先分别在每组变量中找出第一对变量的线性 组合,使得两组的线性组合之间具有最大的相关系 数。然后再在每组变量中找出第二对线性组合,使 其分别与本组内的第一线性组合不相关,第二对本 身具有次大的相关性。如此下去,直至两组变量的 相关性被提取完为止。
1
通常情况下,为了研究两组变量
的相关关系,可以用最原始的方法,分别计 算两组变量之间的全部相关系数,一共有pq 个简单相关系数,这样又烦琐又不能抓住问 题的本质。如果能够采用类似于主成分的思 想,分别找出两组变量的各自的某个线性组 合,讨论线性组合之间的相关关系,则更简 捷。
在解决实际问题中,这种方法有广泛的应用。如,
cov(u1,v2 )
cov(1x,
2
y)
1122
0
cov(u1 , v2
)
cov(
2
x,
1y)
212 1
0
求使 cov(u2, v2 ) 2122 达到最大的 2 和 2 。
12212211 2111 0
的特征根 是 ,相应的特征向 量为
11112212211 21 0
将12111 左乘(3)的第一式,并将第二式代入,得
21111211 121 0 21111121 2221 0 21221111121 21 0
的特征根 是 ,相应的
111
0
1
211
221
0
(2)
121 111 0 211 221 0
(3)
将上面的3式分别左乘1 和 1
11122111
1111 1 22 1
0 0
11122111
1111 1221
将 12212左乘(3)的第二式,得
12212211 12212221 0
12212211 121 0 并将第一式代入,得
1/ 2
1
1/ 2
22 21 11 12 22
有相同的非零特征根。
15
结论: 既是M1又是M2的特征根, 和 是相应于M1 和M2的特征向量。
至此,典型相关分析转化为求M1和M2特征根和特征 向量的问题。
第一对典型变量提取了原始变量X与Y之间相关的主 要部分,如果这部分还不能足以解释原始变量,可以在剩 余的相关中再求出第二对典型变量和他们的典型相关系数。
M1 M 2
1111221221 2122111112

M1 M 2
2 2
引理:AB和BA有相同的非零特征根.A’和A有相同的非 零特征根.

M
1
M 2
1
1
11 12 22 21
1
1
22 21 11 12

N1 N2
1/ 2
1
1/ 2
11 12 22 21 11
相关主题