摘要
典型相关分析是多元统计分析的一个重要研究课题.它是研究两组变量之间相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系.它借助主成分分析降维的思想,用少数几对综合变量来反映两组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用.
本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型
相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的几种算法做了比较全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要性质并给出了证明,接着推导了典型相关系数的显著性检验.最后通过理论与实例分析两个层面论证了典型相关分析的应用于实际生活中的可行性与优越性.
【关键词】典型相关分析,样本典型相关,性质,实际应用
ABSTRACT
The Canonical Correlation Analysis is an important studying topic
of the Multivariate Statistical Analysis. It is the statistical analysis method which studies the correlation between two sets of variables. It can work to reveal the mutual line dependence relation availably between two sets of variables. With the help of the thought about the Principal Components, we can use a few comprehensive variables to reflect the linear relationship between two sets of variables. Nowadays It has already been used widely in the correlation analysis and forecasted analysis.
This text describes the statistical thought of the Canonical Correlation Analysis firstly, and then defines the total canonical correlation variables and canonical correlation coefficient, and sum up
their solution method briefly. After it I go deep into discuss some algorithm of the sample canonical correlation analysis thoroughly. According to the reasoning of the Canonical Correlation Analysis, sum up some of its important properties and give the identification, following it, I infer the significance testing about the canonical correlation coefficient. According to the analysis from the theories and the application, we can achieve the possibility and the superiority from canonical correlation analysis in the real life.
【Key words】Canonical Correlation Analysis,Sample canonical correlation,Character,Practical applications
目录
前言 1
第1章典型相关分析的数学描述 2
第2章典型变量与典型相关系数 3
2.1 总体典型相关 3
2.2 样本典型相关 4
2.2.1 第一对典型相关变量的解法 4
2.2.2 典型相关变量的一般解法 9
2.2.3 从相关矩阵出发计算典型相关 9
第3章典型相关变量的性质 12
第4章典型相关系数的显著性检验 16
第5章典型相关分析的计算步骤及应用实例 19
5.1 典型相关分析的计算步骤 19
5.2 实例分析 20
结语 27
致谢 28
参考文献 29
附录 29
前言
典型相关分析(Canonical Correlation Analysis ,CCA)作为多元统计学的一个重要部分,是相关分析研究的一个主要内容.典型相关分析不仅其方法本身具有重要的理论意义,而且它还可以作为其他分析方法,如多重回归、判别分析和相应分析的工具,因此在多元分析方法中占有特殊的地位.
典型相关的概念是在两个变量相关的基础上发展起来的.我们知道,两个随机变量的相关关系可以用它们的简单相关系数来衡量;一个随机变量与一组随机变量之间的相关关系可以用复相关系数来衡量.但考虑一组随机变量与另一组随机变量的关系时,如果运用两个变量的相关关系,分别考虑第一组每个变量和第二组中每
个变量的相关,或者运用复相关关系,考虑一组变量中的每个变量和另一组变量的相关,这样做比较繁琐,抓不住要领.因此,为了用比较少的变量来反映两组变量之间的相关关系,一种考虑的思路就是类似主成分分析,考虑两组变量的线性组合,从这两个线性组合中找出最相关的综合变量,通过少数几个综合变量来反映两组变量的相关性质,这样便引出了典型相关分析.
典型相关分析的基本思想是首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对本身具有最大的相关性,如此继续下去,直到两组变量之间的相关性被提取完毕为止.有了这样线性组合的最大相关,则讨论两组变量之间的相关,就转化为只研究这些线性组合的最大相关,从而减少研究变量的个数.
典型相关分析是由Hotelling于1936年提出的.就目前而言,它的理论己经比较完善,计算机的发展解决了典型相关分析在应用中计算方面的困难,成为普遍应用的进行两组变量之间相关性分析技术.如在生态环境方面,用典型相关理论对预报场与因子场进行分析,实现了短期气象预测;借助典型相关,分析了植被与环境的关系;在社会生活领域,应用典型相关分析了物价指标和影响物价因素的相关关系等等.
第1章典型相关分析的数学描述
一般地,假设有一组变量
与另一组变量
,我们要研究这两组变量之间的相关关系,如何给两组变量之间的相关性以数量的描述.
当
1时,就是我们常见的研究两个变量
与
之间的简单相关关系,其相关系数是最常见的度量,定义为:当
(或
)时,
维随机向量
,设
,
,其中,
是第一组变量的协方差阵,
是第一组与第二组变量的协方差阵,
是第二组变量的协方差阵.则称
为
与
的全相关系数,全相关系数用于度量一个随机变量
与另一组随机变量
的相关系数.
当
时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新的综合变量之间的相关.也就是做两组变量的线性组合即
其中,
和
为任意非零向量,于是我们把研究两组变量之间的问题化为研究两个变量
之间的相关问题,希望寻求
,
使
,
之间最大可能的相关,我们称这种相关为典型相关,基于这种原则的分析方法就是典型相关分析.
第2章典型变量与典型相关系数
2.1 总体典型相关
设有两组随机变量
,
,分别为
随机向量,根据典型相关分析的思想,我们用
和
的线性组合
和
之间的相关性来研究两组随机变量
和
之间的相关性.我们希望找到
,使得
最大.由相关系数的定义
易得出对任意常数
,均有
这说明使得相关系数最大的
并不唯一.因此,为避免不必要的结果重复,我们在求综合变量时常常限定,
于是,我们就有了下面的定义:设有两组随机变量
,
,
维随机向量
的均值向量为零,协方差阵
(不妨设
).如果存在
和
,使得在约束条件
,
下,
则称
是
的典型相关变量,它们之间的相关系数称为典型相关系数;其他典型相关变量定义如下:定义了前
对典型相关变量之后,第
对典型相关变量定义为:如果存在
和
,使得
⑴
和前面的
对典型相关变量都不相关;
⑵
,
;
⑶
的相关系数最大,
则称
是
的第
对(组)典型相关变量,它们之间的相关系数称为第
个典型相关系数(
).
2.2 样本典型相关
以上是根据总体情况已知的情形进行,而实际研究中,总体均值向量
和协方差阵
通常是未知的,因而无法求得总体的典型相关变量和典型相关系数,首先需要根据观测到的样本数据阵对
进行估计.
2.2.1 第一对典型相关变量的解法
设总体
,已知总体的
次观测数据为:
(
),
于是样本数据阵为
若假定
则由参考文献【2】中定理2.5.1知协方差阵
的最大似然估计为
其中
=
,样本协方差矩阵为:。