当前位置:文档之家› 概率密度函数估计

概率密度函数估计

p(x | X ) p(x |ˆl ) , 即贝叶斯估计结果与最大似然估计结果近似相等。 如 p( | X ) 的峰值不尖锐,则不能用最大似然估计来代替贝叶斯 估计。
3.3 贝叶斯估计和贝叶斯学习
考虑估计的收敛性:记学习样本个数N ,样本集 X x1, x2 , , xN
N 1 时有 p(X N | ) p( x N | ) p(X N 1 | )
定理3.1
请自学证明过程
如果采用平方误差损失函数,则 的贝叶斯估计量ˆ 是在给定 x 时 的条
件期望,即
ˆ E[ | x] p( | x)d
同理可得到,在给定样本集X 下, 的贝叶斯估计是:
ˆ E[ | X ] p( | X )d
3.3 贝叶斯估计和贝叶斯学习

X
k


T
1 X k
代入上式得
N
1 X k 0
k 1
1
N
X k 0
k 1
所以
1( N X k N ) 0
k 1




1 N
N
Xk
k 1
这说明未知均值的最大似然估计正好是训练样本的算术
平均。
其中,参数
通常是向量,比如一维正态分布
N
(

i
,

2 1
),未知参数可能是
i


i
2 i
,此时

p(
x
|

i
)可写成
p( x | i , i )或
p(x |i ) 。
2
3.2 最大似然估计(Maximum Likelihood Estimation)
鉴于上述假设,我们可以只考虑一类样本,记已知样本为
3.2 最大似然估计(Maximum Likelihood Estimation)
假设条件: ① 参数 是确定的未知量,(不是随机量) ② 各类样本集 X i,i 1, ,c 中的样本都是从密度为p(x | i ) 的总体中独立 抽取出来的,(独立同分布,i.i.d.) ③ p(x | i ) 具有某种确定的函数形式,只其参数 未知 ④ 各类样本只包含本类分布的信息
求贝叶斯估计的方法:(平方误差损失下)
(1)确定 的先验分布 p( )
(2)求样本集的联合分布
N
p(X | ) p(xi | ) i 1
(3)求 的后验概率分布
p( | X ) p(X | ) p( )
p(X | ) p( )d
(4)求 的贝叶斯估计量 ˆ p( | X )d
上图有5个解,只有一个解最大即.


3.2 最大似然估计(Maximum Likelihood Estimation)
正态分布下的最大似然估计示例
以单变量正态分布为例
[1,, 2 ]T 1, 2 2
p(x | )
1 2
exp

1 2
因此有递推后验概率公式:
p( | X N ) p( xN | ) p( | X N 1)
p( xN | ) p( | X N 1)d
p( | X ) p(X | ) p( )
贝叶斯估计 思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。
基本思想: 把待估计参数 看作具有先验分布 p( )的随机变量,其取值与样本
集 X 有关,根据样本集X x1, x2 , , xN 估计 。
损失函数:把 估计为ˆ 所造成的损失,记为(ˆ, )
3.3 贝叶斯估计和贝叶斯学习
3.3 贝叶斯估计和贝叶斯学习
所有可能的参数取值下的 样本概率密度的加权平均
我们也可直接推断总体分布 p(x | X ) p(x | ) p( | X )d
其中, p( | X ) p(X | ) p( ) 。
p(X | ) p( )d
设 的最大似然估计为 ˆl,则在 ˆl 处 p( | X ) 很可能有 一尖峰,若如此,且先验概率 p()在 ˆl 处非零且在附近变化不 大,则



1
...
p

N k 1
log
P( X
k
|
i)

0
P(Xi/θi)


N k 1


1
logP(
X
k
|

i)

0
.........
.........


N k 1


p
logP(
X
k
|

i)

0


利用上式求出 i的估值 ,即为 i=
最小化期望风险 最小化条件风险 (对所有可能的x )
有限样本集下,最小化经验风险:
R(ˆ | X ) (ˆ, ) p( | X )d
3.3 贝叶斯估计和贝叶斯学习
贝叶斯估计量:
(在样本集X 下)使条件风险(经验风险)最小的估计量ˆ 。
损失: 离散情况:损失函数表(决策表); 连续情况:损失函数 常用的损失函数: (ˆ, ) ( ˆ)2 (平方误差损失函数)
平均(nⅹn阵列, nⅹn个值)
极大似然估计
分布
二项 泊松 指数 正态 正态
待估参数
p λ λ μ σ2
极大似然估计
pˆ 1 mn
m
Xi
i 1
ˆ
1 n
n
Xi
i 1
n
ˆ n Xi
i 1
ˆ
1 n
n
Xi
i 1
ˆ 2

1 n
n
(Xi X)2
i 1
3.3 贝叶斯估计和贝叶斯学习
非参数方法 (nonparametric methods)
不假定数学模型,直接用已知类别的学习样本的先验知识直 接估计数学模型。
二.监督学习与无监督学习 监督学习:在已知类别样本指导下的学习和训练,
参数估计和非参数估计都属于监督学习。
无监督学习:不知道样本类别,只知道样本的某些 信息去估计,如:聚类分析。
pˆ ( x | i ) N p( x | i )
Pˆ(i ) NP(i )
重要前提:
训练样本的分布能代表样本的真实分布,所谓i.i.d条件
有充分的训练样本
本章讨论内容: 如何利用样本集估计概率密度函数?
估计概率密度的两种基本方法:
参数方法 (parametric methods)
x


2


样本集 似然函数
X x1, x2 , , xN
N
l(x) p(X | ) p(xk | ) k 1
3.2 最大似然估计(Maximum Likelihood Estimation)
对数似然函数
N
H ( ) ln l(x) ln P(xk | )
3.2 最大似然估计(Maximum Likelihood Estimation)
求解: 若似然函数满足连续、可微的条件,则最大似然估计量就是方程
dl( ) / d 0 或 dH ( ) / d 0 的解(必要条件)。
若未知参数不止一个,即 [1, 2 , , s ]T ,记梯度算子
B.多维情况:n个特征(学生可以自行推出下式)

估计值:1



1 N
N k 1
Xk
1 N

2 N k1 X k
T
Xk
结论:①μ的估计即为学习样本的算术平均

②估计的协方差矩阵是矩阵 X k
T
X k 的算术
X x1, x2 , , xN
似然函数(likelihood function)
N
l( ) p(X | ) p(x1, x2 , , xN | ) p(xi | ) i 1 —— 在参数 下观测到样本集 X 的概率(联合分布)密度
基本思想: 如果在参数 ˆ下 l( )最大,则 ˆ 应是“最可能”的参数值,它是 样本集的函数,记作 ˆ d(x1, x2, , xN ) d(X )。称作最大似然估计量。 为了便于分析,还可以定义对数似然函数 H( ) ln l( )。
② ∑, μ均未知
A. 一维情况:n=1对于每个学习样本只有一个特征的简单
情况:
1

1,
2


2 1
log
P(
X
k
|

i)


1 2
log
2

2

1
2
2
Xk
2
1
(n=1)由上式得
N
代入
k 1

1
log
P(X k
| i)

N1 (X
k 1 2
k
1)
第三章 概率密度函数的估计
本章主要内容介绍
3.1 引言 3.2 最大似然估计(Maximum Likelihood Estimation) 3.3 贝叶斯估计和贝叶斯学习 3.4 概率密度估计的非参数方法
3.1 引言
贝叶斯决策: 已知 P(i ) 和p(x | i ) ,对未知样本分类(设计分类器) 实际问题: 已知一定数目的样本,对未知样本分类(设计分类器)

1 N
N k 1
(xk ˆ )2
相关主题