当前位置:
文档之家› 第3.4节 经验贝叶斯估计讲解
第3.4节 经验贝叶斯估计讲解
总体分布
参数
共轭先验分布
二分布
成功概率p
分布(,)
泊松分布
均值
分布()
指数分布
均值的倒数
分布()
正态分布 (方差已知)
正态分布(均 值已知)
均值 方差²
正态分布N(,²) 倒分布
二、参数经验贝叶斯估计
1、贝叶斯风险的定义
由第一小节内容可知,给定损失函数以后,风 险函数定义为
当X与都是离散型随机变量时,贝叶斯风险为
R(d ) E(R( ,d ))
g(x){ L( , d( x))h( | x)}
x
注 由上述计算可以看出,贝叶斯风险为计算两次 期望值得到,即
R(d ) E(E (L( , d( X )))
此风险大小只与决策函数d有关,而不再依赖 参数. 因此以此来衡量决策函数优良性更合理
在先验分布G( )未知时,如何计算
dG
(x)
(x
1)mG ( x mG ( x)
1)
由于历史样本X1, X2 , Xn均是从分布mG ( x)中抽取的独立
样本,故由这些样本可以对mG ( x)估计,根据泊松分布特
性可以得到mG ( x)的估计为
mˆ G ( x1, x2 ,
1
,
xn ,
x)
i 1
例4(p126例4.10) 设( X1, X2 , , Xn )T 是来自总体
B(1, )的一个样本,试寻求的共轭先验分布?
解 其似然函数为
n
n
q( x | )
n
xi (1 )1 xi
xi
n xi
i1 i (1 ) i1
i 1
nx (1 )nnx gn (t | ) 1,
其中参数向量为 (1,2 , , p ).
注 定理表明,正定二次损失下,的贝叶斯估计
不受正定矩阵Q的选取干扰,表现出其稳健性.
证 在二次损失下,任一个决策函数向量d(x)= (d1( x), d2 ( x), , dn ( x))T的后验风险为
E[(d )T Q(d ) | x] E[((d d* ) (d* ))T Q((d d * ) (d * )) | x] 又由于E(d* | x) 0,因而 E[(d )T Q(d ) | x] (d d * )T Q(d d * ) E[(d * )T Q(d * ) | x]
L( , d( x))h( | x)dx,
L(i , d( x))h(i | x),
i
为连续型随机变量, 为离散型随机变量.
注 如果存在一个决策函数,使得
R(d* | x) inf R(d | x), d D d
则称此决策为后验风险准则下的最优决策函数,或称
为贝叶斯(后验型)决策函数。
[E( | x) d( x)][ E( | x)]h( | x)d
[E( | x) d( x)][E( | x) E( | x)] 0
因而 [ d( x)]2 h( | x)d [ E( | x)]2 h( | x)d [E( | x) d( x)]2 h( | x)d
定理4.4 设参数为随机向量,先验分布为() 和损失函数为二次损失函数
L( , d ) (d )T Q(d )
其中Q为正定矩阵,则的贝叶斯估计为后验分布
h(|x)的均值向量,即
d*( x) E( | x)
E(1
|
x)
E( p | x)
定理4.6 设的先验分布为()和损失函数为
如何计算经验贝叶斯估计dn dn ( X | X1, , Xn )
经验贝叶斯估计dn dn ( X | X1, , Xn )的计算方法:
(1)根据贝叶斯估计风险函数的定义可知dn dn( X | X1, , Xn )的风险为
RG (dn | X1, , Xn )
[
L( , dn( x
非参数经验贝叶斯估计 参数经验贝叶斯估计
一、非参数经验贝叶斯估计
1、问题引入 例1(p109例3.20) 设随机变量X服从泊松分布,
p( x | ) x e x ,
x!
( x 0,1, 2, ; 0)
设参数的先验分布为G( ),则X的边缘分布为
mG ( x)
e x x dG( ),
|
x1 ,
x2 ,
xn ) p( x | )dx]dG( )
注:此结果包含了X1,
Xn , 而X1,
X
为随机变量,
n
因而,该风险仍包含有随机性,需要对此风险再求
一次期望,即
(2)计算期望,可得
RG* (dn ) E(RG (dn | X1, , Xn ))
RG (dn | X1, , Xn )mG ( x1, x2 , , xn )dx1dx2 dxn
[ E( | x)]2 h( | x)d [E( | x) d( x)]2 h( | x)d
2[ E( | x)][E( | x) d( x)]h( | x)d
又因为 E( | x) h( | x)d 则 [ E( | x)][E( | x) d( x)]h( | x)d
R( , d ) E (L( , d( X ))
L( , d( x))q( x | )dx
此积分仍为的函数,在给定的先验分布()时,定义
R(d ) E (R( , d ))
R( , d )π( )d
为决策函数d在给定先验分布()下的贝叶斯风险,简 称为d的贝叶斯风险.
显然,当d*( x) E( | x) a.s时,R(d )达到最小.
定理4.3 设的先验分布为()和损失函数为加 权平方损失
L( , d ) ( )( d )2
则的贝叶斯估计为
d*( x) E(( ) | x) E(( ) | x)
证明略,此证明定理4.2的证明类似.
(2) 0 gn(t | ) f ( )d
则
D f
{
gn (t | ) f ( ) gn (t | ) f ( )d
:
n 1, 2,
}
是共轭先验分布族,其中
n
q( x | ) p( xi | ) gn(t | )h( x1, x2 , , xn )
0 x!
( x 0,1, 2, )
对于先验分布G( ),在平方损失下,可求得的
贝叶斯估计为
p( | x)dG( x)
dG( x) E( | x)
0
0 p( | x)dG( x)
1 x1e dG( x)
x! 0
1 xe dG( x)
证 首先对贝叶斯风险做变换
min R(d ) min m( x){ [ d( x)]2 h( | x)d }dx
max a.s [ d( x)]2 h( | x)d
又因为
[ d( x)]2 h( | x)d
[ E( | x) E( | x) d( x)]2 h( | x)d
n
{( 1
x1
,
x2 ,
, xn中等于x的个数) 1}
用mˆ G ( x1, x2 , , xn , x)代替mG ( x), 可得其经验贝叶斯估计量为
dn(X | X1, X2,
,
Xn)
(
X
1)mˆ G ( X mˆ G ( X )
1)
例3(p110例3.21) 设随机变量X的分布密度为
p( x | )
1
( x )2
e2
2
的先验分布为G( ), (a, b) (, ).在平方损失下,
的贝叶斯估计为
dG ( x)
x
mG' ( x) mG ( x)
由于密度函数比较难估计,我们可以选用非参数密度
估计法(如核估计,最近邻密度估计),得到mˆ G ( x)
2、贝叶斯风险的计算 当X与都是连续性随机变量时,贝叶斯风险为
R(d ) E(R( , d )) R( , d )π( )d L( , d( x))q( x | )π( )dxd L( ,d( x))h( | x)g(x)dxd g(x){ L( , d( x))h( | x)d }dx
x! 0 ( x 1)mG ( x 1)
mG ( x)
如果先验分布 G(x)未知,该 如何计算?
2、经验贝叶斯决策函数 当先验分布未知时,如何利用历史资料(经验资
料)( X1, X 2 , , X n )T 的信息得到最优贝叶斯估计? 定义3.11 任何同时依赖于历史样本( X1, X2 , , Xn )T 和当前样本X的决策函数dn dn ( X | X1, , Xn )称为 经验贝叶斯决策函数
1、贝叶斯点估计 定义4.6 若总体X的分布函数F(x,)中参数为随机 变量,()为的先验分布,若决策函数类D中存在 一个决策函数使得对决策函数类中的任一决策函数 均有
R(d* ) inf R(d ), d D dD
则称d*( X )为参数的贝叶斯估计量
注 1、贝叶斯估计是使贝叶斯风险达到最小的决策 函数.
于是可以得到的经验贝叶斯估计为
dn( X | X1, X2 ,
,
Xn)
X