相关系数及其几何意义
在实际问题中,我们常常要研究两个变量的相关性.例如:研究某行业的变动对另一行业的影响,某生理指数与某疾病的相关性.更一般的,当我们观测多个变量时,要分析多个变量间的相关性,进而根据某种标准,对这些变量进行筛选.当然,两个变量是最基础的情况,故我们首先对两个变量间的相关性.
相关系数:
设11(,,),(,,)n n x x x y y y ''==为两个向量,它们可能是从两个总体中抽样出来的数据.在数学中,我们希望定量的刻画它们的相关程度.自然地,我们会想到用误差平方和的最小值
20,1
1min ()n
i i a i Q y a x n λλ==--∑ ( 1 ) 来衡量.如果有某个a 和λ使得0Q =0,则可以说x 与y 完全相似.否则就
以0Q 的大小来描述它们的相似程度.为求0Q 值,我们可对
21
1(,)()n
i i i Q a y a x n λλ==--∑ ( 2 ) 关于a 和λ求导,并令其等于0,即
()1
212()020n
i i i n i i i i Q y a x a n Q y a x x n λλλ==∂=---=∂∂⎡⎤=---=⎣⎦∂∑∑ 解得12
1()()()n
i i
i n i
i x x y y x x λ==--=-∑∑, a y x λ=-. ( 3 )
将(3)式代入(1)式得:
221022111(()())1()1()()n i i n i i n n i i i i i x x y y Q y y n x x y y ====⎡⎤--⎢⎥⎢⎥=--⎢⎥--⎢⎥⎣⎦
∑∑∑∑ =221
1()(1)n i xy i y y n ρ=--∑, 其中记1221/2
11()()(()())n
i i
i xy n n i i i i x x y y x x y y ρ===--=--∑∑∑,
由此还可以得到最小相对误差平方和
20
02111()xy n i i Q E y y n ρ===--∑.
由于0E 消除了x,y 的测量单位带来的影响,所以它比0Q 用来衡量x,y 的
相关程度更为合理,等价的以xy ρ来作为衡量x 与y 相关的度量,并称
xy ρ为x,y 的相关系数,当xy ρ越大(从而0E 越小),则x,y 越相关,当xy ρ越小(从而0E 越大),则x 与y 越不相关.
自然的,我们很容易证明相关系数的一个重要性质:
01xy ρ≤≤.
相关系数的几何意义
下面我们将研究相关系数的几何意义,同时,我们将引进无关系数的概念.
在n 维欧氏空间n R 中考虑数据向量x,y,在n R 中这两个向量的数积为1n
i i i x y x y ='=∑,于是(1)定义的x,y 的相关系数为
cos xy x Hy Hx Hy
ρθ'==, 其中H 为中心化矩阵,θ为Hx 和Hy 的夹角.我们用α,β分别记Hx 和Hy 的单位向量,则有
,Hx Hy Hx Hy
αβ== . 即可得xy ρ=αβ',
则相关系数的值是由α在β上的正交投影所决定的,也就是说由向量α和β的夹角θ所决定的,由于α,β以及夹角θ决定,αβ为边所张成的平行四边形的面积,故也可以用这个平行四边形的面积来衡量x,y 的相关程度.
为求平行四边形的面积的值,利用施密特正交化,首先求出由,αβ张成的2维子空间的法正交基1,2δδ,取
12,())δαδβαβα='=-
由初等几何知识可知,平行四边形面积的值等于α到1δ的投影与β到
2δ投影之积,即
S=12()()αδβδ''
=由xy ρ=αβ',知:221xy S ρ=-
可见上文中的0E 的几何意义就是单位向量,αβ张成的平行四边形的面积之平方.
根据221xy S ρ=-,可等价的用S 值来描述x,y 的相关程度,为此我们称
S 为x,y 的无关系数,S 值越大,x,y 越无关,S 值越小,x,y 越相关.由01xy ρ≤≤,显然有
201S ≤≤.
由于
S=2
1xy
ρ-=2()()()()()x Hx y Hy x Hy x Hx y Hy '''-'', 故x,y 无关系数之平方和2S 的几何意义是:由Hx,Hy 为边所张成的平行四边形之平方与以,Hx Hy 为边张成的矩形面积之平方的比值.特别的,当Hx 与Hy 正交时,2S =1,当2S =0时,Hx 与Hy 共线,即Hx 与Hy 线性相关.。