协方差与相关系数
• 任意两个随机变量X与Y的和的方差为 D(X+Y)=D(X)+D(Y)+2Cov(X,Y)
协方差的性质 1. 2. 3. 4.
Cov( X , X ) D( X )
Cov( X , Y ) Cov(Y , X )
Cov(aX , bY ) ab Cov(Y , X ) a,b是常数
XY
Cov( X , Y ) 0 D( X ) D(Y )
例:
已知 D( X ) 4 , D(Y ) 9 , XY
1 U 3 ,设
2X Y ,
V 2 X Y , 求 UV .
1 解 Cov( X , Y ) XY D( X ) D(Y ) 4 9 2 3
§2.1 相关系数的性质
• 性质1:随机变量X和Y的相关系数满足|ρXY|≤1. • 性质2: |ρXY|=1 的充要条件是,存在常数a,b使得 P{Y=a+bX}=1. • 性质3:若X与Y相互独立,则ρXY=0.
• 性质1:随机变量X和Y的相关系数满足|ρXY|≤1.
证明
则
令
X E( X ) X D( X )
X与Y的分布律分别为
X
P
-1
0.15
0
0.5
1
0.35
Y P
0 0.4
1 0.6
E ( XY ) (1) 1 0.08 11 0.20 0.12
E ( X ) (1) 0.15 1 0.35 0.20
E (Y ) 1 0.6 0.6
于是
Cov( X , Y ) E ( XY ) E ( X ) E (Y ) 0.12 0.20 0.6 0
D(U ) D(2 X Y ) D(2 X ) D(Y ) 2Cov(2 X , Y )
4D( X ) D(Y ) 2 2 Cov( X , Y ) 33
D(V ) D(2 X Y ) D(2 X ) D(Y ) 2Cov(2 X , Y )
4D( X ) D(Y ) 2 2 Cov( X , Y ) 17
所以
Cov(U ,V ) Cov(2 X Y , 2 X Y )
Cov(2 X , 2 X ) Cov(2 X , Y ) Cov(Y , 2 X ) Cov(Y , Y )
4D( X ) D(Y ) 7
证 由方差公式及协方差的定义,得
D( X Y ) E [( X Y ) E ( X Y )]2
E [( X E ( X )) (Y E (Y ))]2
E [ X E ( X )]2 [Y E (Y )]2 2[ X E ( X )][Y E (Y )]
相关情况示意图 Y Y
ρ =1
ρ =-1
o Y
X
o Y
X
0<ρ<1 o X o
-1<ρ<0
X
§3 协方差的关系式
定理:
Cov( X , Y ) E( XY ) E ( X ) E(Y )
证 由协方差的定义及数学期望的性质,得
Cov( X , Y ) E [ X E( X )][Y E(Y )]
X E( X ) X D( X )
Y E (Y ) Y D(Y )
• 再来计算X*和Y*的协方差,这样就引进了相关 系数的概念.
§2 相关系数
• 定义:设二维随机变量(X,Y)的方差D(X)>0,D(Y)>0, 协方差Cov(X,Y)均存在,则称
XY
Cov ( X ,Y ) D( X ) D(Y )
E[ XY X E (Y ) Y E ( X ) E ( X ) E (Y )
E( XY ) E( X ) E(Y ) E(Y ) E( X ) E( X ) E(Y )
E ( XY ) E ( X ) E (Y )
定理:
D( X Y ) D( X ) D(Y ) 2Cov( X , Y )
为随机变量X与Y的相关系数或标准协方差.
• 引理:对于二维随机向量(X,Y),若E(X2),E(Y2)存 在,则有
|E(XY)|2≤E(X2)E(Y2)
• 证明:考虑实变量t的二次函数 h(t)=E[(tX-Y)2]=t2 E(X2)-2tE(XY)+E(Y2) 因为对一切t,有(tX-Y)2≥0,所以h(t)≥0. 从而二次方程h(t)=0或者没有实根,或者只有重根, 因而,由二次方程根的判别式知识得 |E(XY)|2≤E(X2)E(Y2)
从而|ρXY|≤1.
• 性质2: |ρXY|=1 的充要条件是,存在常数a,b使得 P{Y=aX+b}=1 证明 令
X X E( X ) D( X ) Y Y E (Y ) D(Y )
由ρXY2=[E(X*Y*)]2≤E(X*)E(Y*)=1
知|ρXY|=1等价于[E(X*Y*)]2-E(X*)E(Y*)=0 它又等价于h(t)=E[(tX*-Y*)2]=0有重根t0. 又因为E(t0X*-Y*)=t0E(X*)-E(Y*)=0 所以D(t0X*-Y*)=0,由方差的性质知它等价于 P{t0X*-Y* =0}=1,即P{Y=aX+b}=1 其中a=t0σ(Y)/σ(X),b=E(Y)- t0 E(X) σ(Y)/σ(X).
Y E (Y ) Y D(Y )
2 XY
( E{[ X E ( X )][Y E (Y )]})2 D( X ) D(Y )
X E ( X ) Y E (Y ) 2 ][ ]}) [ E ( X *Y *)]2 D( X ) D(Y )
( E{[
E( X *2 ) E(Y *2 ) 1
一、协方差的概念及性质 二、相关系数的概念及性质 三、协方差的关系式
§1 协方差
• 定义:设二维随机向量(X,Y)的数学期望 (E(X),E(Y))存在,若E[(X-E(X))(Y-E(Y))]存在,则称 它为随机变量X与Y的协方差,记为Cov(X,Y),即 Cov(X,Y)= E[(X-E(X))(Y-E(Y))] • 协方差有计算公式 Cov(X,Y)= E(XY)-E(X)E(Y)
=E{[X-E(X)][Z-E(Z)]}
+E{[Y-E(Y)][Z-E(Z)]}
=Cov(X,Z)+Cov(Y,Z)
• 协方差的数值在一定程度上反映了X与Y相互间 的联系,但它受X与Y本身数值大小的影响.如令 X*=kX,Y*=kY,这时X*与Y*间的相互联系和X与Y 的相互联系应该是一样的,但是 Cov(X*,Y*)=k2Cov(X,Y) • 为了克服这一缺点,在计算X与Y的协方差 之前,先对X与Y进行标准化:
• 性质3:若X与Y相互独立,则ρXY=0.
证明 若X与Y相互独立,则E(XY)=E(X)E(Y),
又 Cov(X,Y)= E(XY)-E(X)E(Y),所以
XY
Cov ( X ,Y ) D( X ) D(Y )
0
§2.2 相关系数的含义
• 考虑以X的线性函数a+bX来近似表示Y.以均方误差 e=E{[Y-(a+bX)]2} =E(Y2)+b2E(X2)+a2-2bE(XY)+2abE(X)-2aE(Y) 来衡量以a+bX近似表达Y的好坏程度.e的值越小表示 a+bX与Y的近似程度越好.为此令 e 2a 2bE( X ) 2 E (Y ) 0 a e 2bE( X 2 ) 2 E ( XY ) 2aE( X ) 0 b Cov ( X , Y ) Cov ( X ,Y ) b , a E ( Y ) E ( X ) 解得 0 0 D( X ) D( X )
E[ X E( X )]2 E[Y E(Y )]2 2E[ X E( X )][Y E(Y )]
D( X ) D(Y ) 2Cov( X , Y )
例: 二维随机变量(X,Y)的联合分布律如下表, 求 Cov( X , Y ) , XY .
Y 0 1 解 X -1 0.07 0.08 0 0.18 0.32 1 0.15 0.20
协方差与相关系数
问题的提出:
• 对于二维随机向量(X,Y)来说,数学期望E(X)、 E(Y)只反映了X与Y各自的平均值,方差只反映了X 与Y各自离开均值的偏离程度,它们对X与Y之间相 互关系不提供任何信息. • 但二维随机向量(X,Y)的概率密度p(x,y)或分布列 pij全面地描述了(X,Y)的统计规律,也包含有X与Y之 间关系的信息.我们希望有一个数字特征能够在一 定程度上反映这种联系.
因此
UV
Cov(U ,V ) 7 D(U ) D(Байду номын сангаас ) 551
谢谢!!!
从而得
2 2 E {[ Y ( a bX )] } ( 1 XY ) D (Y ) Min a ,b
• 相关系数只是随机变量间线性关系强弱的一个 度量.当|ρXY|=1 时,说明X与Y间存在着线性关系(除 去一个零概率事件以外).当|ρXY|<1 时,这种线性相 关程度随着ρXY的减小而减弱. • 定义:(1) 当ρXY=1 时,称X与Y正线性相关; (2)当ρXY=-1 时,称X与Y负线性相关; (3)当ρXY=0时,称X与Y不相关. • 注:(1) X与Y不相关,只是意味着X与Y不线性相关 ,但可能存在着别的函数关系; (2)若ρXY存在,则当X与Y独立时, X与Y一定不相关; 但X与Y不相关时, X与Y不一定独立.