贝叶斯推断
(
P (θ ∈Cn | X n ) →1−α
22
f (θ | X n ) ∝ Ln (θ ) f (θ ) 禳 镲 镲 ? exp睚 Ln (q) log f (q) log 1 4444444 2 4444444 3 4 4 镲 镲 镲 铪 分别展开
l (q)= l $ + q- $ l ' $ + q q q
机器学习和数据挖掘更偏爱贝叶斯推断
4
贝叶斯方法
贝叶斯推断的基本步骤如下: 选择一个概率密度函数 f (θ ),用来表示在取得数据之 前我们对某个参数 θ的信念。我们称之为先验分布。 选择一个模型 f (x | θ ) (在参数推断一章记为 f (x;θ ) )
来反映在给定参数 θ 情况下我们对x的信念。 当得到数据 X1, X2,…Xn 后,我们更新我们的信念并且 计算后验分布 f (θ | X1,..., Xn ) 。 从后验分布中得到点估计和区间估计。
其中 p0 = a (a + b )为先验的均值。 先验和后验为相同的分布族:共轭
如例子中的Beta分布
14
例:正态分布
令 X1,..., Xn ~ N q, s 2 ,为简单起见,假设 s 已知,并 假设先验为 q : N a, b2
(
n n
(
)
)
骣1 ÷ 禳 1 2 镲 ç Ln (q | x )= ç ÷ exp睚 2 å (xi - q) ç 2ps ÷ 镲 2s 桫 镲 铪
13
例:Bernoulli II
现在假设先验不是均匀分布,而是 p : Beta(a , b ) 则后验为Beta分布,参数为 a + s 和 b + n - s , 即 p | xn : Beta(a + s, b + n- s) 后验的均值为
骣 n a+s µ 鼢+ 骣a + b p 珑 p= =珑 p 鼢 鼢 桫+ b + n 0 a + b + n 珑+ b + n a a 桫
b
ò
a
f (q | xn )dq = 1- a
C称为 1- a 后验区间。 注意:在多次试验中,并不保证θ在 (1 − α)100% 的次数会落 在后验区间内。事实上,在复杂的高维模型中,当样本数很 少时,覆盖概率可能接近于0。 注意:xn ,θ 是随机的
10
例:Bernoulli I
令 X1,..., Xn ~ Bernoulli(p) ,假设先验为均匀分 布 f (p)= 1,根据贝叶斯公式,后验为
P (q < c | X
.95
)= P ç ç ç
桫t
<
t
|X ÷ ÷ ÷
骣 c - q÷ ç ÷ = P çZ < ÷= .025 ç ç t ÷ 桫 由于 P(Z < - 1.96)= .025 ,所以
c- q = - 1.96 t
最后95%的贝叶斯后验区间为 q ± 1.96t 由于q » $ , » se ,也可用 q± 1.96se 近似,同频率置信 q t 区间
¶ log f (m) ¶m
|m= m0
I0为先验中θ的信息 m0最大化f(θ)
24
MLE和贝叶斯
定义
In = $ + I0 I
1 mn = I0m0 + $$ Iq In
(
)
I0
结合展开,得到
θ −θ $ n f (θ | X ) ∝ exp − 2
(
)
2
$ − (θ − m0 ) I 2
21
MLE和贝叶斯
µ q 令 $n 为 q的极大似然估计,标准误差为 se = 1 nI $n q 在合适的正则条件下,后验均值的渐近分布为
2 µ ˆ , se qn » N qn
( )
也就是说, » $ q q
(
)
)
µq µ q 另外,若 Cn = $n - za 2 se,$n + za 2 se 为渐近频率 的 1- a 置信区间,则 Cn也是贝叶斯后验的 1- a 区间:
对θ而言为常数
15
例:正态分布
将二者相乘,去掉一些常数项,最后得到一个正态分布形 式的核 最后, θ的后验为
q | X n : N (q, t 2 )
其中 q =
wX + (1- w)a
1 se2 , 1 1 1 = 2+ 2 2 t se b
w=
1 1 + 2 2 se b
se = s
n 为MLE X 的标准误差。
f ( p | x )? f (p)Ln (q)
n
p (1- p)
s
n- s
= p
s+ 1- 1
(1- p)
n- s+ 1- 1
其中 s =
å
xi 为成功的次数。 i
11
例:Bernoulli I
为了得到后验的均值,我们必须计算 ò qLn (q) f (q) n
qn =
ò q f (q | x )dq =
=
Ln (θ ) f (θ ) cn
∝ Ln (θ ) f (θ )
其中cn = ∫ Ln (θ ) f (θ ) dθ 被称为归一化常数 (normalizing constant)。该常数经常被忽略,因为 我们关心的主要是参数 θ 的不同值之间的比较。 所以
f (θ | xn ) ∝ Ln (θ ) f (θ )
(
)
(
) (
(
)
)
b b n 一旦从 f θ | x 中抽取样本 θ1,...,θ B ,令 τ = g θ 则 τ 1,...,τ B 为来自 f τ | xn 。这样避免了解析计算
(
)
(
)
( )
但仿真可能很复杂/困难
20
例:Bernoullil
P 抽样: 1,..., PB ~ Beta( s +1, n − s +1) Pb ϕb = log 令 b 1− P n 1 B 则 ϕ ,...,ϕ 为 f (ϕ | x ) 的IID,用直方图方法可以 估计 f (ϕ | xn )
Chp11:贝叶斯推断
内容:
贝叶斯观点和贝叶斯方法 贝叶斯推断 vs. 频率推断
1
贝叶斯观点和贝叶斯方法
从频率到信念
2
频率学派的观点
到目前为止我们讲述的都是频率(经典的)统计学 概率指的是相对频率,是真实世界的客观属性。 参数是固定的未知常数。由于参数不会波动,因 此不能对其进行概率描述。 统计过程应该具有定义良好的频率稳定性。如: 一个95%的置信区间应覆盖参数真实值至少95% 的频率。
也就是说,后验和似然函数与先验的乘积成正比
8
贝叶斯点估计
∫θL (θ ) f (θ )dθ θ = ∫θ f (θ | x )dθ = ∫ L (θ ) f (θ )dθ 是一个常用的点估计
后验的均值
n n n n
L2损失下的贝叶斯规则
极大后验估计(maximum a posteriori,MAP)是使后验 f (θ | xn ) 最大的 θ 的值:
ˆ θn = argmax f (θ | xn )
θ
是另一个常用的点估计
0-1损失下的贝叶斯规则
9
贝叶斯置信区间估计
为了得到贝叶斯区间估计,我们需找到a和b,使得
蝌 f (q | x )dq =
n -
a
+ b
f (q | xn ) q = a 2 d
令 C = (a, b) 因此 P (q ? C | xn )
5
回忆贝叶斯规则
亦称贝叶斯定理
f ( y | x) =
条件概率
f (x | y) f ( y)
∫ f (x | y) f ( y)dy
利用贝叶斯规则将数据和参数的分布联合起来
f (θ | x) = f (x | θ ) f (θ )
∫ f (x | θ ) f (θ )dθ
6
似然函数
假设我们有n个IID观测 X1,..., Xn ,记为 X n,产 生的数据为 x1,..., xn ,记为 xn ,我们用如下公 式替代 f ( x | θ )
ò L (q) f (q)dq
n
在这个例子中可以解析计算。后验恰好为Beta分布
f ( p; a , b )= G(a + b ) G(a )G(b ) p
a- 1
(1- p)
b- 1
b 其中参数 a = s + 1 , = n - s + 1,均值为 a (a + b )
s+ 1 p= n+ 2 f ( p | xn )=
f ( x | θ ) = f ( x1,..., xn | θ ) = ∏ f ( xi | θ ) = Ln (θ )
n n i =1
现在似然函数真正解释为
f (θ | x
n
)=
∫ f (x
f ( xn | θ ) f (θ )
n
| θ ) f (θ ) dθ
统计学更多关注频率推断
3
贝叶斯学派的观点
贝叶斯推断采取了另外一个不同的立场: 概率描述的是主观信念的程度,而不是频率。这 样除了对从随机变化产生的数据进行概率描述外, 我们还可以对其他事物进行概率描述。 可以对各个参数进行概率描述,即使它们是固定 的常数。 为参数生成一个概率分布来对它们进行推导,点 估计和区间估计可以从这些分布得到
A = { : g (q) } q t
仿真/模拟方法