协方差与相关系数
D( X + Y ) = ? D( X + Y ) = E ( X + Y )2 − [ E ( X + Y )]2
= D( X ) + D(Y ) + 2 E {[ X − E ( X )][Y − E (Y )]}.
协方差
(2) 定义
称 E{[ X − E ( X )][Y − E (Y )]} 为随机变量 X 与 Y 的协方差. 记为 Cov( X , Y ), 即 C ov( X , Y ) = E{[ X − E ( X )][Y − E (Y )]}. 称 ρXY = Cov( X , Y ) D( X ) ⋅ D(Y ) ( D( X ) ≠ 0, D(Y ) ≠ 0)
G
O
x
D(Y ) = D( X ) = 153 / 2800,
Cov( X , Y ) = E ( XY ) − E ( X ) E (Y ) = 19 / 400 = 0.0475,
Cov( ,Y ) X ρXY = = 0.87, D( X ) ⋅ D(Y )
D( X + Y ) = D( X ) + D(Y ) + 2Cov( X ,Y ) = 0.2043.
a ,b
2 = E {[Y − (a0 + b0 X )]2 } = (1 − ρXY ) D(Y )
⇒ ρXY = 1.
(4) 不相关与相互独立的关系 若随机变量X, 相互独立 相互独立, 定理 若随机变量 ,Y相互独立, 则 ρ xy = 0 ,即X,Y不相关。 不相关。 , 不相关 不相关 注 1) 相互独立 如后面例2 如后面例2. 2) 不相关的充要条件
2) D( X +Y ) = D( X ) + D(Y ) + 2Cov( X ,Y ).
性质 1) Cov( X , Y ) = Cov(Y , X ); Cov( X , X ) = D( X );
2) Cov( aX , bY ) = ab Cov( X , Y ) , a, b 为常数 ;
3) Cov( X 1 + X 2 , Y ) = Cov( X 1 , Y ) + Cov( X 2 , Y ).
= D[Y − (a 0 + b0 X )] + [ E (Y − (a 0 + b0 X ))]2
⇒ D[Y − (a0 + b0 X )] = 0, E[Y − (a0 + b0 X )] = 0.
由方差性质知
P{Y − (a0 + b0 X ) = 0} = 1, 或 P {Y = a0 + b0 X } = 1.
确定 a , b 的值 , 使 e 达到最小 .
e = E[(Y − (a + bX ))2 ]
= E (Y 2 ) + b 2 E ( X 2 ) + a 2 − 2bE ( XY ) + 2abE ( X ) − 2aE (Y ).
将 e 分别关于 a ,b 求偏导数 , 并令它们等于零 , 得
当 ρ XY = 0时 X , Y 线性相关的程度最差 . . 定义 当 ρXY = 0 时, 称 X 和Y 不相关
(3) 相关系数的性质
1) ρXY ≤ 1.
2) ρXY = 1 的充要条件是 : 存在常数 a, b 使 P {Y = a + bX } = 1.
证明 1) min e = E[(Y − ( a + bX )) 2 ] a ,b 2 = (1 − ρXY ) D(Y ) ≥ 0
四阶中心矩 E 四阶中心矩 {[ X − E( X )]4 } 主要用来衡量 随机变量的分布在均值 附近的陡峭程度如何 .
5. 小结
(1) 协方差 定义 C ov( X , Y ) = E {[ X − E ( X )][Y − E (Y )]}.
计算公式 1) Cov( X , Y ) = E ( XY ) − E ( X ) E (Y );
围成. 其中区域 G 由曲线 y = x2 与 x = y 2 围成.求 Cov ( X , Y ), ρ XY , D( X + Y ). 2
y
解: E ( X ) = ∫ E (Y ) = ∫
1 0
1
0
∫
x
y= x
x2 x
3 xdydx = 9 / 20,
G
O
x = y2
∫ 3 ydydx = 9 / 20, E ( XY ) = ∫ ∫ 3 xydydx = 1 / 4,
1o 2o 3o
X , Y 不相关 ⇔ ρXY = 0; X , Y 不相关 ⇔ Cov( X ,Y ) = 0; X , Y 不相关 ⇔ E ( XY ) = E ( X ) E (Y ).
上的均匀分布, 例2 设 Z 是服从 [−π , π ] 上的均匀分布,又 X = sin Z , Y = cos Z,试求相关系数 ρ XY . 解
将 a0 , b0 代入 e = E[(Y − (a + bX ))2 ] 中, 得
min e = E[(Y − (a + bX ))2 ]
a ,b
= E[(Y − (a0 + b0 X ))2 ]
2 = (1 − ρXY ) D(Y ).
(2) 相关系数的意义
当 ρXY 较大时 e 较小, 表明 X ,Y 的线性关系联 系较紧密. 当 ρ XY 较小时 , X , Y 线性相关的程度较差 .
x2 1 x 0 x2
x
E( X ) = ∫
2
E (Y
2
∫ )=∫ ∫
0
1 0
1
x
x2
x
3 x 2 dydx = 9 x = y2
D( X ) = E ( X ) − [ E ( X )]2 = 9 / 35 − (9 / 20)2 = 153 / 2800,
x2 2
3 y dydx = 9 / 35,
(2) 说明
k = 2,3, L
存在 , 称它为 X 的 k 阶中心矩 .
1) 随机变量 X 的数学期望 E ( X ) 是 X 的一阶原 点矩 , 方差为二阶中心矩 , 协方差 Cov( X , Y )是 X 与 Y 的二阶混合中心矩 ;
2) 在实际应用中, 高于 4 阶的矩很少使用.
三阶中心矩 E 三阶中心矩 {[ X − E( X )]3 }主要用来衡量 偏 随机变量的分布是否有 ;
反之 , 若存在常数 a ∗ , b∗ 使
P{Y = a ∗ + b∗ X } = 1 ⇔ P {Y − (a ∗ + b∗ X ) = 0} = 1,
⇒ P {[Y − (a ∗ + b∗ X )]2 = 0} = 1,
⇒ E {[Y − (a ∗ + b∗ X )]2 } = 0.
故有
0 = E {[Y − (a ∗ + b∗ X )]2 }≥ min E[(Y − (a + bX ))2 ]
为随机变量 X 与 Y 的相关系数 .
于是有 D( X +Y ) = D( X ) + D(Y ) + 2Cov( X,Y )
(3) 说明
(1) X 和 Y 的相关系数又称为标准 协方差 , 它是一 个无量纲的量 . ( 2) 若随机变量 X 和 Y 相互独立 ⇒ Cov( X ,Y ) = E {[ X − E ( X )][Y − E (Y )]} = E[ X − E ( X )]E[Y − E (Y )] = 0. ( 3) 若随机变量 X 和 Y 相互独立
动画演示 ξ 与 η 的相关关系.
单击图形播放/ ESC键退出 单击图形播放/暂停 ESC键退出
4.矩的概念
(1)定义 (1)定义
设 设 X 和 Y 是随机变量 , 若E ( X k ), k = 1,2,L 存在, 称它为 X 的 k 阶原点矩 , 简称 k 阶矩.
若 若 E {[ X − E ( X )] k },
2 ⇒ 1 − ρXY ≥ 0
⇒ ρXY ≤ 1.
2) ρXY = 1 的充要条件是 , 存在常数 a, b 使 P {Y = a + bX } = 1. 事实上 , ρ XY = 1 ⇒ E[(Y − (a0 + b0 X ))2 ] = 0 ⇒ 0 = E[(Y − ( a0 + b0 X )) 2 ]
= E[ XY − YE ( X ) − XE (Y ) + E ( X ) E (Y )]
= E ( XY ) − 2 E ( X ) E (Y ) + E ( X ) E (Y )
= E ( XY ) − E ( X ) E (Y ).
2. 协方差的性质
(1) Cov( X , Y ) = Cov(Y , X ); Cov( X , X ) = D( X );
∂e ∂a = 2a + 2bE ( X ) − 2 E (Y ) = 0, ∂e = 2bE ( X 2 ) − 2 E ( XY ) + 2aE ( X ) = 0. ∂b
解得 b0 =
Cov( X ,Y ) Cov( X ,Y ) ,a0 = E (Y ) − E ( X ) . D( X ) D( X )
因而
Cov ( X , Y ) = 0, ρ XY = 0
不相关, 相关系数 ρ XY =0,随机变量 X 与 Y 不相关, =0, 不独立. 但是有 X 2 + Y 2 = 1 ,从而 X 与 Y 不独立.
例3 设 θ 服从 [ 0 , 2 π ] 的均匀分布 , ξ = cos θ , η = cos( θ + a ), 这里 a 是常数 , 求 ξ 和 η 的相关系数 ? 解 E (ξ ) 1 2 π cosx dx 0, = = ∫0 2π