概率密度函数的估计
14
计算方法
最大似 然估计
最大似然估计量使似然函数梯度为0 :
N
θH (θ) |ˆML θ ln p( xk | θ) |ˆML 0 k 1
T
θ
1
...
s
第三章 概率密度密度的估计
15
3.2.2 贝叶斯估计-最大后验概率
用一组样本集K={x1, x2 ,…, xN}估计未知参数θ 未知参数θ视为随机变量,先验分布为 p(θ),而在
定理 3.1: 如果定义损失函数为误差平方函数,则有:
ˆBE E[ | x]
p( | x)d
第三章 概率密度密度的估计
19
贝叶斯估计的步骤
贝叶斯 估计
1. 确定θ的先验分布 p(θ)
2. 由样本集K={x1, x2,…, xN}求出样本联合分 布:p(K|θ)
3. 计算θ的后验分布
p( | K ) p(K | ) p( )
22
22
ln
p( xk
| 1,2 )
1 2
ln(
2
2
)
1
22
( xk
1)2
第三章 概率密度密度的估计
22
一元正态分布均值的估计
最大似 然估计
N
θH (θ) |ˆML θ ln p( xk | θ) |ˆML 0 k 1
1
ln
p( xk
| 1,2 )
1
2
( xk
1)
代入前式,得
ˆ ML
1 N
8
3.2 参数估计
统计量:总体的某种信息是样本集K={x1, x2 ,…, xN}的某种函数f(K)。
参数空间:总体分布的未知参数θ所有可能 取值组成的集合(Θ)
点估计和区间估计 点估计的估计量(variable)和估计值(value):
的估计量ˆ d (x1, x2,..., xN ) d (K)
第三章 概率密度密度的估计
31
例题
抽查某地区55名12岁男生的身高(单位:cm)的测 量值如下:
128.1 144.4 150.3 146.2 140.6 126.0 125.6 127.7 154.4 142.7 141.2 142.7 137.6 136.9 132.3 131.8 147.7 138.4 136.6 136.2 141.6 141.1 133.1 142.8 136.8 133.1 144.5 142.4 140.8 127.7 150.7 160.3 138.8 154.3 147.9 141.3 143.8 138.1 139.7 142.9 144.7 148.5 138.3 135.3 134.5 140.6 138.4 137.3 149.5 142.5 139.3 156.1 152.2 129.8 133.2
是样本集的函数,它对样本集的一次
实现称为估计值
第三章 概率密度密度的估计
9
估计量的评价标准
估计量的评价标准:无偏性,有效性,一致性
➢无偏性:E( ˆ )=θ ➢有效性:D(ˆ )小,估计更有效 ➢一致性:样本数趋于无穷时,ˆ 依概率趋于θ:
lim P(ˆ ) 0
N
第三章 概率密度密度的估计
独立地按概率密度p(x|θ)抽取样本集 K={x1, x2 ,…, xN},用K估计未知参数θ
第三章 概率密度密度的估计
11
似然函数
最大似 然估计
似然函数:
l(θ) p(K | θ) p(x1, x2,..., xN | θ)
N
p(xk | θ)
k 1
对数(loglarized)似然函数:
p( K )
N
p( xk
|
) p()
~
N
(
N
,
2 N
)
k 1
N
N
2 0
N
2 0
2
mN
2
N
2 0
2
0
2 N
02 2
N
2 0
2
计算μ的贝
叶斯估计: ˆB p( | K )d N
第三章 概率密度密度的估计
27
一元正态分布例解
贝叶斯 估计
总体分布密度为:
均值μ为随机未知变量,其 先验分布为:
P(i | x)
p(x | i )P(i ) p(x | j )P(j )
j
知识的来源:对问题的一般性认识或一些训练数据
基于样本的两步Bayes分类器设计 ➢ 利用样本集估计P(ωi)和p(x|ωi)
➢ 基于上述估计值设计判别函数及分类器
面临的问题:
➢ 如何利用样本集进行估计 ➢ 估计量的评价 ➢ 利用样本集估计错误率
p()
~
N
(
0
,
2 0
)
计算μ的后验分布:
p( | K ) p(K | ) p( )
p(K | ) p( )d
用贝叶斯估计方法求μ的估计量
ˆBE
p( | K)d
第三章 概率密度密度的估计
26
一元正态分布例解(II)
贝叶斯 估计
计算μ的后验分布:
p( | K) p(K | ) p()
第三章 概率密度密度的估计
5
基于样本的Bayes分类器
训练 样本集
P(i | x)
p(x | i )P(i ) p(x | j )P(j )
j
样本分布的 统计特征:
概率
密度函数
引言
决策规则: 判别函数 决策面方程
最一般情况下适用的“最优”分类器:错误 率最小,对分类器设计在理论上有指导意义。
第三章 概率密度函数的估计
2021/3/11
1
请各位思考的问题
+ 1、我们可以构造一个比贝叶斯规则更好的 分类器吗?
+ 2、利用贝叶斯法则构造分类器的前提条件 是什么?
+ 3、为何要估计密度以及如何估计密度?
2021/3/11
2
Table of Contents
第三章 概率密度密度的估计
3
3.1 引言
N
xk
k 1
第三章 概率密度密度的估计
23
一元正态分布方差的估计
最大似 然估计
2
ln
p( xk
| 1,2 )
1
22
( xk 1)2 222
代入前式,得
ˆ
2 ML
1 N
N
( xk
k 1
ˆ )2
第三章 概率密度密度的估计
24
多元正态分布参数最大似然估计
最大似 然估计
μˆ ML
1 N
N
xk
k 1
贝叶斯 估计
贝叶斯决策问题: 样本x 决策ai 真实状态wj 状态空间A是离散空间 先验概率P(wj)
贝叶斯参数估计问题: 样本集K={xi} 估计量^s 真实参数s 参数空间S是连续空间 参数的先验分布p(s)
贝叶斯风险最小估计问题:用一组 样本集K={x1, x2 ,…, xN}估计未知参数
➢神经网络方法:PNN
第三章 概率密度密度的估计
29
参数PK非参数:
• 非参数估计的优点: • (1) 在利用样本数据对总体进行估计时,不依赖于总体所属的分
布总体的分布形式,尤其是当对总体的分布不是很清楚时,因而 非参数模型的适用性比较广,与参数方法相比,具有较好的稳健 性。 • (2) 由于不必假定总体分布的具体形式,所以也无需多总体分布 所具有的参数进行估计和检验。如果方法选择得当,非参数估计 方法与参数估计的效果相差不多,尤其当参数估计的假设不满足 时,非参数估计会比参数估计方法更为有效。 • 非参数估计也有其缺点: • (1) 如果对总体的了解足以确定它的分布类型,非参数估计就不 如参数估计那样有更强的针对性。 • (2) 它没有充分利用样本所携带的关于总体的信息,因而有时它 的效率会低一些,或者在相同的精度下,非参数估计比参数估计 需要更大的样本。
获取统计分布及其参数很困难,实际问题中 并不一定具备获取准确统计分布的条件。
第三章 概率密度密度的估计
6
直接确定判别函数
引言
基于样本的直接确定判别函数方法:
➢针对各种不同的情况,使用不同的准则函数, 设计出满足这些不同准则要求的分类器。
➢这些准则的“最优”并不一定与错误率最小相 一致:次优分类器。
E (x μ)(x μ)T
(
2 ij
)
n*n
,
2 ij
E
( xi
i )( x j
j )
第三章 概率密度密度的估计
25
3.3.2 一元正态分布贝叶斯估计例解
贝叶斯 估计
总体分布密度为: p( x | ) ~ N (, 2 )
样本集: K={x1, x2,…, xN}
均值μ为随机未知变量,μ的先验分布为:
分类器
x1
g1
功能结构
x2
g2
ARGMAX
.
a(x)
.
.
.
.
.
xn
gc
基于样本的Bayes分类器:通过估计类条件概 率密度函数,设计相应的判别函数
基于样本的直接确定判别函数方法
第三章 概率密度密度的估计
4
基于样本的Bayes分类器设计
引言
Bayes决策需要已知两种知识:
➢ 各类的先验概率P(ωi) ➢ 各类的条件概率密度函数p(x|ωi)
第三章 概率密度密度的估计
30
画频率分布直方图的步骤
1、计算最大值与最小值的差(知道这组数据的变动范围): 2、决定组距与组数(将数据分组) 组数:将数据分组,当数据在100个以内时,