当前位置：文档之家› 贝叶斯方法

贝叶斯方法

贝叶斯公式
贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因（即大事件A已经发生的条件下，分割中的小事件Bi的概率）。
设B1,B2,...是样本空间Ω的一个划分，则对任一事件A（P(A)>0),有
贝叶斯公式
Bi 常被视为导致试验结果A发生的“原因” ，P(Bi)(i=1,2,...)表示各种原因发生的可能性大小，故称先验概率； P(Bi|A)(i=1,2...)则反映当试验产生了结果A之后，再对各种原因概率的新认识，故称后验概率。估计
贝叶斯理论基本介绍马尔科夫蒙特卡洛模拟
OpenBUGS和GeoBUGS软件介绍演示和练习
CAR模型 BYM模型
贝叶斯参数估计
在频率派看来，参数是客观存在的固定常数，统计的任务之一是估计这些参数，包括点估计和区间估计。
反映在给定参数情况下我们对x的信念。
当得到数据 X1, X2,…Xn 后，我们更新我们的信念并且计算后验分布。
从后验分布中得到点估计和区间估计。
先验分布和后验分布
先验分布
贝叶斯学派的根本观点，是认为在关于总体分布参数 θ的任何统计推断问题中，除了使用样本所提供的信息外，还必须规定一个先验分布，它是在进行统计推断时不可缺少的一个要素。
条件自相关模型
V[i ]~ N(0, 1/σ2v )
U[i ](neigh) CAR
tau.u ~ gamma(0.5, 0.0005) tau.v ~ gamma(0.5, 0.0005)
Conditional AutoRegressive model
条件自相关模型(CAR)-Normal
ui
根据马氏链收敛定理，当步长n足够大时，一个非周期且任意状态联通的马氏链可以收敛到一个平稳分布π(θ)。
所谓平稳，简单的说是主要统计性质不随时间而变的马尔科夫链就可以认为是平稳的。
MCMC
利用马尔科夫链进行随机模拟的方法就是 MCMC。MCMC方法的基本思想就是通过建立一个平稳分布为π(θ)的Markov chain，得到 π(θ)的样本，基于这些样本做各种统计推断。
贝叶斯学派认为，参数θ为随机变量且具有概率分布，贝叶斯统计主要任务就是推断参数在给定数据下的条件分布。
贝叶斯推断的基本步骤
选择一个概率密度函数 f ( ) ，用来表示在取得数据
之前我们对某个参数的信念。我们称之为先验分
布。
选择一个模型 f (x | )（在参数推断记为 f (x; )）来
主观概率法：包含了经验知识和理论知识，参杂了个人对参数的了解。
同等无知原则：对θ的任何可能值都没有偏爱，都是同等无知的，把θ的取值范围上的“均匀分布”看做θ的先验分布，又称bayes假定。
先验分布的选取方法
共轭分布方法：若先验分布f(θ)与后验分布f(θ |x)属于同一分布类型
Jeffreys原则最大熵原则
“Credible interval”: 信度区间基于统计模拟，获得参数的后验分布，包含95%数据区间，即信度区间。
马可夫链标准差 (MCSE)
7
分层贝叶斯模型主要包括3个层次
构建Poisson或者Binomial分布函数
广义线性混合模型的转化
XT为解释变量或者协变量 Si是区域化随机变量产生的随机效应， εi是随机误差
2、对模型中的随机变量建立抽样方法，在计算机上进行模拟试验，得到足够的随机抽样，并对相关事件进行统计。
3、对试验结果进行分析，给出所求解的估计及其精度（方差）的估计。
马尔科夫链（Markov Chain）
一系列随机变量{Xn}n≥0称为马尔科夫链。又称为马尔科夫过程，是一种离散的随机过程，其未来状态只与当前t时刻有关，而与t 时刻之前的历史状态无关（条件独立）。
~
N
(ui
,
2 u
/
ni )
ui
第i区域与相邻区域空间自相关效应
相邻区域数
Where
ui
wi, ju j / ni
jne igh(i )
相邻区域平均值
权重取值通常为
1
(如Besag, York & Mollie, 1991
建议)
•条件自相关模型(CAR)-Normal模型是处理空间自相关最常用的方法具有平滑效应 •第i区域与相邻区域空间自相关效应取决于相邻区域数和相邻区域的平均值。
有时候需要计算多重积分（比如后验分布是多元分布时）。
这些都会带来计算上的很大困难。1990年代 MCMC（Markov Chain Monte Carlo ，马尔科夫链蒙特卡洛）计算方法引入到贝叶斯统计学之后，一举解决了这个计算的难题。
蒙特卡洛方法
1、针对实际问题建立一个简单易行的概率统计模型，使问题所求的解为该模型的概率分布或者数字特征，比如：某个事件的概率或者是某个随机变量的期望值。
似然函数真正解释为给定参数下数据的概率。
后验概率
后验概率为
f

|
xn

f xn | f f xn | f d

n f
cn
n f
其中cn n f d 被称为归一化常数(normalizing
贝叶斯学派与传统统计方法区别
频率学派
贝叶斯学派
参数是固定的 (常数)
参数是随机的
使用似然函数估计参数 “Confidence
interval”: 可信区间基于样本结果，如抽样100次，其中 95次包含了参数值。标准差 (SE)
使用先验信息和似然函数估计后验分布，并据此估计参数
OpenBUGS 为一个开源软件项目，它是WingBUGS延伸，代表BUGS的未来，与WinBUGS相比，功能更齐全，基本上兼容 WinBUGS。软件地址：/w/FrontPage
相关软件介绍
GeoBUGS
伦敦的S.t Mary’s皇家学院医学分院（the Imperial College School of Medicine）流行病学与公共卫生系开发，最初作为WinBUGS的一个插件包用于空间分析和能制作相关的统计地图。
constant)。该常数经常被忽略，因为我们关心的主要是参数的不同值之间的比较。所以
f | xn n f
也就是说，后验和似然函数与先验的乘积成正比
19
贝叶斯点估计
后验的均值
是一n 个常用f 的 |点xn估d计。
n f d n f d
贝叶斯方法简述
前言
近年来，贝叶斯统计模型(Bayesian models)理论和方法逐渐成熟，使得贝叶斯空间统计模型研究和应用取得了长足的发展。
应用贝叶斯空间统计分析的方法进行疾病分布图描绘、疾病聚集性研究、地理环境与疾病相关性研究，以及疾病危险因素研究逐渐成为热点。
前言
贝叶斯方法的基本原理是通过构建分层贝叶斯模型(hierarchal Bayesian model)，对未知参数提出先验分布，并进行贝叶斯估计获得贝叶斯后验分布，并通过MCMC方法进行后验分布的计算，最终获得参数的估计值。
似然函数
假设有n个独立同分布的观测 X1,..., Xn ，记为 X n ,产生的数据为 x1,..., xn ，记为 xn ，
我们用如下公式替代 f x |
n
f xn | f x1,..., xn | f xi | n i 1
极大后验估计(maximum a posteriori，MAP)是使后验 f | xn
最大的的值：
ˆn arg max f | xn
是另一个常用的点估计。
贝叶斯推断的计算难题
对后验分布对θ进行推断计算很多情况下要用积分计算来完成。
有时候后验分布过于复杂，使得积分没有显示结果，数值方法也很难应用；
Offset
9
BYM模型举例
O[i] ~ Poisson(m[i])
Log(m[i]) = log E[i] + alpha0 + beta*depriv[i] + V[i] + U[i](neigh)
alpha0 ~ flat()
(非结构型随机 + 空间临近效应)
beta ~ N(0, 1.0E-5)
由于贝叶斯方法可很好解决模型中结构效应（如空间自相关）以及随机效应计算问题，目前成为疾病、健康数据的空间统计以及时 -空统计最常见的方法。
贝叶斯方法
正向概率：假设袋子里面有N个白球，M个黑球，你伸手进去摸一把，摸出黑球的概率是多大。
逆向概率：如果我们事先并不知道袋子里面黑白球的比例，而是闭着眼睛摸出一个（或好几个）球，观察这些取出来的球的颜色之后，那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测。
后验分布
根据样本分布和未知参数的先验分布，用概率论中求条件概率分布的方法，求出在样本已知下，未知参数的条件分布。因为这个分布是在抽样以后才得到的，故称为后验分布。
贝叶斯推断方法的关键是任何推断都必须且只须根据后验分布，而不能再涉及样本分布。
先验分布的选取方法
客观法：即根据积累的资料对参数的先验分布做出统计。
在使用WinBUGS时候，需要单独安装 GeoBUGS
但OpenBUGS已经将GeoBUGS整合在一起。
BUGS是Bayesian inference using gibbs sampling的缩写。
BUGS允许用户指定复杂的多层模型，并可使用 MCMC方法来估计模型中的未知参数，它将所有未知参数都看做随机变量，然后对此种类型的概率模型进行求解。

e商务文档

贝叶斯方法

相关文档推荐：