当前位置:文档之家› 贝叶斯方法

贝叶斯方法


贝叶斯公式
贝叶斯公式是建立在条件概率的基础上寻找 事件发生的原因(即大事件A已经发生的条 件下,分割中的小事件Bi的概率)。
设B1,B2,...是样本空间Ω的一个划分,则对 任一事件A(P(A)>0),有
贝叶斯公式
Bi 常被视为导致试验结果A发生的“原因” ,P(Bi)(i=1,2,...)表示各种原因发生的可 能性大小,故称先验概率; P(Bi|A)(i=1,2...)则反映当试验产生了结 果A之后,再对各种原因概率的新认识,故 称后验概率。估计
贝叶斯理论基本介绍 马尔科夫蒙特卡洛模拟
OpenBUGS和GeoBUGS软件介绍 演示和练习
CAR模型 BYM模型
贝叶斯参数估计
在频率派看来,参数是客观存在的固定常数, 统计的任务之一是估计这些参数,包括点估 计和区间估计。
反映在给定参数 情况下我们对x的信念。
当得到数据 X1, X2,…Xn 后,我们更新我们的信念并 且计算后验分布。
从后验分布中得到点估计和区间估计。
先验分布和后验分布
先验分布
贝叶斯学派的根本观点,是认为在关于总体分布参 数 θ的任何统计推断问题中,除了使用样本所提供 的信息外,还必须规定一个先验分布,它是在进行 统计推断时不可缺少的一个要素。
条件自相关模型
V[i ]~ N(0, 1/σ2v )
U[i ](neigh) CAR
tau.u ~ gamma(0.5, 0.0005) tau.v ~ gamma(0.5, 0.0005)
Conditional AutoRegressive model
条件自相关模型(CAR)-Normal
ui
根据马氏链收敛定理,当步长n足够大时, 一个非周期且任意状态联通的马氏链可以收 敛到一个平稳分布π(θ)。
所谓平稳,简单的说是主要统计性质不随时 间而变的马尔科夫链就可以认为是平稳的。
MCMC
利用马尔科夫链进行随机模拟的方法就是 MCMC。MCMC方法的基本思想就是通过建立一 个平稳分布为π(θ)的Markov chain,得到 π(θ)的样本,基于这些样本做各种统计推 断。
贝叶斯学派认为,参数θ为随机变量且具有 概率分布,贝叶斯统计主要任务就是推断参 数在给定数据下的条件分布。
贝叶斯推断的基本步骤
选择一个概率密度函数 f ( ) ,用来表示在取得数据
之前我们对某个参数 的信念。我们称之为先验分
布。
选择一个模型 f (x | )(在参数推断记为 f (x; )) 来
主观概率法:包含了经验知识和理论知识,参 杂了个人对参数的了解。
同等无知原则:对θ的任何可能值都没有偏爱, 都是同等无知的,把θ的取值范围上的“均匀分 布”看做θ的先验分布,又称bayes假定。
先验分布的选取方法
共轭分布方法:若先验分布f(θ)与后验分布f(θ |x)属于同一分布类型
Jeffreys原则 最大熵原则
“Credible interval”: 信度区间基于统计模拟, 获得参数的后验分布,包 含95%数据区间,即信 度区间。
马可夫链标准差 (MCSE)
7
分层贝叶斯模型主要包括3个层次
构建Poisson或者Binomial分布函数
广义线性混合模型的转化
XT为解释变量或者协变量 Si是区域化随机变量产生的随机效应, εi是随机误差
2、对模型中的随机变量建立抽样方法,在 计算机上进行模拟试验,得到足够的随机抽 样,并对相关事件进行统计。
3、对试验结果进行分析,给出所求解的估 计及其精度(方差)的估计。
马尔科夫链(Markov Chain)
一系列随机变量{Xn}n≥0称为马尔科夫链。 又称为马尔科夫过程,是一种离散的随机过 程,其未来状态只与当前t时刻有关,而与t 时刻之前的历史状态无关(条件独立)。
~
N
(ui
,
2 u
/
ni )
ui
第i区域与相邻区域空间自相关效应
相邻区域数
Where
ui
wi, ju j / ni
jne igh(i )
相邻区域平均值
权重取值通常为
1
(如Besag, York & Mollie, 1991
建议)
•条件自相关模型(CAR)-Normal模型是处理空间自相关最常用的方法 具有平滑 效应 •第i区域与相邻区域空间自相关效应取决于相邻区域数和相邻区域的平均值。
有时候需要计算多重积分(比如后验分布是多元分 布时)。
这些都会带来计算上的很大困难。1990年代 MCMC(Markov Chain Monte Carlo ,马 尔科夫链蒙特卡洛)计算方法引入到贝叶斯统 计学之后,一举解决了这个计算的难题。
蒙特卡洛方法
1、针对实际问题建立一个简单易行的概率 统计模型,使问题所求的解为该模型的概率 分布或者数字特征,比如:某个事件的概率 或者是某个随机变量的期望值。
似然函数真正解释为给定参数下数据的概率。
后验概率
后验概率为
f

|
xn


f xn | f f xn | f d

n f
cn
n f
其中cn n f d 被称为归一化常数(normalizing
贝叶斯学派与传统统计方法区别
频率学派
贝叶斯学派
参数是固定的 (常数)
参数是随机的
使用似然函数估计参数 “Confidence
interval”: 可信区间基于样本结果, 如抽样100次,其中 95次包含了参数值。 标准差 (SE)
使用先验信息和似然函数 估计后验分布,并据此估 计参数
OpenBUGS 为一个开源软件项目,它是WingBUGS延伸,代表BUGS的 未来,与WinBUGS相比,功能更齐全,基本上兼容 WinBUGS。 软件地址:/w/FrontPage
相关软件介绍
GeoBUGS
伦敦的S.t Mary’s皇家学院医学分院(the Imperial College School of Medicine)流行 病学与公共卫生系开发,最初作为WinBUGS的 一个插件包用于空间分析和能制作相关的统计 地图。
constant)。该常数经常被忽略,因为我们关心的主要是 参数 的不同值之间的比较。所以
f | xn n f
也就是说,后验和似然函数与先验的乘积成正比
19
贝叶斯点估计
后验的均值
是一n 个 常用f 的 |点xn估d计 。
n f d n f d
贝叶斯方法简述
前言
近年来,贝叶斯统计模型(Bayesian models)理论和方法逐渐成熟,使得贝叶斯 空间统计模型研究和应用取得了长足的发展。
应用贝叶斯空间统计分析的方法进行疾病分 布图描绘、疾病聚集性研究、地理环境与疾 病相关性研究,以及疾病危险因素研究逐渐 成为热点。
前言
贝叶斯方法的基本原理是通过构建分层贝叶 斯模型(hierarchal Bayesian model),对 未知参数提出先验分布,并进行贝叶斯估计 获得贝叶斯后验分布,并通过MCMC方法进 行后验分布的计算,最终获得参数的估计值。
似然函数
假设有n个独立同分布的观测 X1,..., Xn ,记 为 X n ,产生的数据为 x1,..., xn ,记为 xn ,
我们用如下公式替代 f x |
n
f xn | f x1,..., xn | f xi | n i 1
极大后验估计(maximum a posteriori,MAP)是使后验 f | xn
最大的 的值:
ˆn arg max f | xn
是另一个常用的点估计。
贝叶斯推断的计算难题
对后验分布对θ进行推断计算很多情况下要用积 分计算来完成。
有时候后验分布过于复杂,使得积分没有显示结果, 数值方法也很难应用;
Offset
9
BYM模型举例
O[i] ~ Poisson(m[i])
Log(m[i]) = log E[i] + alpha0 + beta*depriv[i] + V[i] + U[i](neigh)
alpha0 ~ flat()
(非结构型随机 + 空间临近效应)
beta ~ N(0, 1.0E-5)
由于贝叶斯方法可很好解决模型中结构效应 (如空间自相关)以及随机效应计算问题, 目前成为疾病、健康数据的空间统计以及时 -空统计最常见的方法。
贝叶斯方法
正向概率:假设袋子里面有N个白球,M个 黑球,你伸手进去摸一把,摸出黑球的概率 是多大。
逆向概率:如果我们事先并不知道袋子里面 黑白球的比例,而是闭着眼睛摸出一个(或 好几个)球,观察这些取出来的球的颜色之 后,那么我们可以就此对袋子里面的黑白球 的比例作出什么样的推测。
后验分布
根据样本分布和未知参数的先验分布,用概率论中 求条件概率分布的方法,求出在样本已知下,未知 参数的条件分布。因为这个分布是在抽样以后才得 到的,故称为后验分布。
贝叶斯推断方法的关键是任何推断都必须且只须根 据后验分布,而不能再涉及样本分布。
先验分布的选取方法
客观法:即根据积累的资料对参数的先验分布 做出统计。
在使用WinBUGS时候,需要单独安装 GeoBUGS
但OpenBUGS已经将GeoBUGS整合在一起。
BUGS是Bayesian inference using gibbs sampling的缩写。
BUGS允许用户指定复杂的多层模型,并可使用 MCMC方法来估计模型中的未知参数,它将所有未 知参数都看做随机变量,然后对此种类型的概率模 型进行求解。
相关主题