统计决策与贝叶斯估计
引入一个依赖参数 , 和决策d的二元函数 L( , d ) 0, 称为损失函数
4 November 2017
参数估计
常见的损失函数有以下几种
第3页
k0 ( d ), d (1)线性损失函数 L( , d ) k1 (d ), d
绝对损失函数 L( , d ) | d | (2)平方损失函数 L( , d ) ( d ) 2 (3)凸损失函数 L( , d ) ( )W (| d |) (4)多元二次损失函数 L( , d ) (d )T A(d )
q( x | ) p( xi | )
i 1
n
这个分布综合了总体信息和样本信息;
4 November 2017
参数估计
第17页
0 是未知的,它是按先验分布( )产生的。 为把先验信息综合进去,不能只考虑0,对
的其它值发生的可能性也要加以考虑,故要 用( )进行综合。这样一来,样本x1 , …, xn和 参数 的联合分布为: f (x1, x2 , …, xn, ) = q(x1, x2 , …, xn )( ),
R( , d1 ) R( , d2 ),
则称决策函数d1 优于d2
若R( , d1 ) R( , d2 ), , 则称d1 , d2等价
4 November 2017
参数估计
第7页
定义3.4 设D={d(X)}是一切定义在样本空间X 上,取值于决策空间A 上的决策函数全体, 若存在一个决策函数d*(X),使对任意一个d(X) 都有
布族,简称共轭族。 计算共轭先验分布的方法
4 November 2017
参数估计
第21页
当给定样本的分布(似然函数)q (x | ) 和先验分布( );由贝叶斯公式得 h(x| ) = ( ) q( x )/m(x) 由于m(x)不依赖于, 改写为 h(x| ) ∝( ) q( x ) 上式不是正常的密度函数,是h(x| ) 的主要 部分,称为h(x| ) 的核
i 1 n
记F { F ( xi ; ), },
* i 1
n
则称F *为样本的概率分布族
4 November 2017
参数估计
第2页
2 决策空间(判决空间) 对于任何参数估计,每一个具体的估计值,就是一 个回答,称为一个决策,一个统计问题中可能选取的全 部决策组成的集合称为决策空间,一个决策空间至少应 有两个决策。 3 损失函数 统计决策的一个基本假定是,每采取一个决策,必 然有一定的后果,统计决策是将不同决策以数量的形式 表示出来
4 November 2017
参数估计
第20页
4)共轭先验分布
定义:设总体X 的分布密度为 p(x|
),
F*为 的一个分布族, ( ) 为 的任意 一个先验分布, ( ) ∈ F*,若对样本的任 意观测值x, 的后验分布h( |x)仍在F*内, 称F*为关于分布密度 p(x| )的共轭先验分
参数估计
第12页
(1)总体信息:总体分布提供的信息。 (2)样本信息:抽取样本所得观测值提供的信息。 (3)先验信息:人们在试验之前对要做的问题在经 验上和资料上总是有所了解的,这些信息对 统计推断是有益的。先验信息即是抽样(试 验)之前有关统计问题的一些信息。一般说 来,先验信息来源于经验和历史资料。先验 信息在日常生活和工作中是很重要的。
4 November 2017
参数估计
第14页
贝叶斯学派的基本观点:任一未知量 都可看 作随机变量,可用一个概率分布去描述,这个 分布称为先验分布;在获得样本之后,总体分 布、样本与先验分布通过贝叶斯公式结合起来 得到一个关于未知量 新的分布—后验分布; 任何关于 的统计推断都应该基于 的后验分 布进行。
n
1 2 2
2 ( x ) ] i i 1
n
(
1
) 2
n/2
exp[
2 ( x ) ] i i 1
1 1 2 ( ) ( 2 ) exp[ 2 ](为倒分布) ( )
4 November 2017
参数估计
第23页
例9 X1, X2 , …, Xn来自二项分布B(N , )的一个样
4 November 2017
参数估计
2
第22页
例8 X1, X2 , …, Xn来自正态分布N( , )的一个样本,
其中 已知,求方差2的共轭先验分布
( X 1 , X 2 , , X n )T 的似然函数为 q( x | )
2
1 ( 2 ) n 1 2 2
exp[
R( , d * ) R( , d ), , d , d * D
则称d*(X)为一致最小风险决策函数,或一致 最优决策函数
4 November 2017
参数估计
第8页
例1: 设总体X ~ N (,1), (,), 估计未知参数 ,
解 : 选取损失函数为: L( , d ) (d ) 2 则对的任一估计 d ( X ), 风险函数为 R ( , d ) E [ L( , d )] E (d ) 2
4 November 2017
参数估计
第13页
基于上述三种信息进行统计推断的统计学称为 贝叶斯统计学。它与经典统计学的差别就在于 是否利用先验信息。贝叶斯统计在重视使用总 体信息和样本信息的同时,还注意先验信息的 收集、挖掘和加工,使它数量化,形成先验分 布,参加到统计推断中来,以提高统计推断的 质量。忽视先验信息的利用,有时是一种浪费, 有时还会导出不合理的结论。
Байду номын сангаас
f ( x; ) h( | x) m( x )
q ( x | ) ( )
q ( x | ) ( )d
4 November 2017
参数估计
第19页
这个条件分布称为 的后验分布,它集中了 总体、样本和先验中有关 的一切信息。 后验分布h( x1, x2 , …, xn )的计算公式就是 用密度函数表示的贝叶斯公式。它是用总体和 样本对先验分布( )作调整的结果,贝叶斯统 计的一切推断都基于后验分布进行。
参数估计
第1页
1、统计决策
一、统计决策的三个要素
1 样本空间和分布族 设总体X的分布函数为 F (x; ) ,是未知参数,若设X1 , …, Xn 是来自总体X的一个样本,则样本所有可能值组成的集合称 为样本空间,记为X
联合分布函数 F ( x; ) F ( xi ; ),
4 November 2017
参数估计
第11页
2.贝叶斯估计
1)统计推断的基础
经典学派的观点:统计推断是根据样本信息对 总体分布或总体的特征数进行推断,这里用到 两种信息:总体信息和样本信息; 贝叶斯学派的观点:除了上述两种信息以外, 统计推断还应该使用第三种信息:先验信息。
4 November 2017
4 November 2017
参数估计
第5页
2 风险函数 决策函数 d(X),完全取决于样本,损失函数 L(, d) 也 是样本X 的函数,当样本取不同的值x时,决策 d(X) 可能不 同,所以损失函数值 L(, d) 也不同,不能判断决策的好坏, 一般从总体上来评价、比较决策函数,取平均损失,就是 风险函数 定义3.2 设样本空间,分布族分别为X,F*,决策空间为A, 损失函数为 L(, d), d(X)为决策函数,
1 (1 ) 1
4 November 2017
4 November 2017
参数估计
二、统计决策函数及风险函数
第4页
1 统计决策函数 定义3.1 :定义在样本空间上X,取值于决策空 间A 内的函数d(x),称为统计决策函数,简称 决策函数 决策函数就是一个行动方案,如果用表达 式处理, d(x)= d(x1,x2,…xn)本质上就是一个统 计量
简记为 f (x, ) = q(x )( ) 这个联合分布把总体信息、样本信息和先验 信息三种可用信息都综合进去了;
4 November 2017
参数估计
第18页
在有了样本观察值 x1, x2 , …, xn 之后,则应依
据 f (x, )对 作出推断。由于 f (x, ) =h( x1,x2 ,…,xn )m(x1,x2 ,…,xn), 其中m(x1,x2 ,…,xn) 是x1, x2 , …, xn 的边际概率函 数,它与 无关。因此能用来对 作出推断的仅 是条件分布h( x1, x2 , …, xn),它的计算公式是
4 November 2017
参数估计
2)先验分布
第15页
利用先验信息的前提 (1)参数是随机的,但有一定的分布规律 (2)参数是某一常数,但无法知道 目标:充分利用参数的先验信息对未知参数作出更 准确的估计。 贝叶斯方法就是把未知参数视为具有已知分布的随 机变量,将先验信息数字化并利用的一种方法, 一般先验分布记为( )
若要求d ( X )是无偏估计, 即E (d ( X )) , 则风险函数为: R( , d ) E (d Ed ) 2 D (d ( X )) 即风险函数为估计量 d ( X )的方差,
1 若取d ( X ) X , 则R( , d ) D X n 若取d ( X ) X 1 , 则R( , d ) DX1 1 显然, 当n 1时, 后者的风险比前者大 , X 优于X 1
4 November 2017
参数估计
第9页
例2 设总体X ~ P( x; ), 估计未知参数 , 选取损失函数为: L( , d ) (d ) 2 则对的任一估计d ( X ), 风险函数为 R( , d ) E [ L( , d )] E (d ) 2 若要求d ( X )是无偏估计, 即E (d ( X )) , 则风险函数为: R( , d ) E (d Ed ) 2 D (d ( X )) 若取d ( X ) X , 则R( , d ) D X 显然, 当n 1时, 风险不同