概率密度估计及近邻法
p(m | x)
N
a
k 1
1
2
s
exp
1 2
(xk m)2 s2
1
2
s
0
exp
1 2
(m
s
m0
2
0
)2
a,
exp
1 2
N
(
k 1
m
s
xk
)2
(
m
m0 s0
)2
a,,
exp
1 2
n
(s 2
1
s2 0
)m 2
1 2(
s2
N
xk
k 1
m0 s2
0
)m
与m无关项并入a"
k 1
mˆ
1 N
N k 1
xk
• 未知均值的极大似然估计正是样本的算术平均。
Exceltek Electronics (HK) Ltd Confidential
② 一维正态情况,两个参数均未知,设q1=m, q2=s 2 , q=[q1,q2 ]T 。
分布形式 p(xq )
1
2 s
exp
1 2
• Bayes参数估计步骤:
①确定q 的先验概率密度函数p(q);
②由样本集 x = {x1,x2,…,xN}计算样本的联合分
布
p(x
|q
)
N
p( xk
|
q
)
,它是
q
的函数
;
③用Bayes公k式1 求后验分布p(q | x)
p(q | x) p(x |q ) p(q | x)
p(x |q ) p(q | x)dq
•
协方差矩阵的无偏估计为
1 N 1
N k 1
( xk
mˆ )( xk
mˆ )T
Exceltek Electronics (HK) Ltd Confidential
2. Bayes估计和Bayes学习
Bayes估计:根据样本集 x 确定总体某个参数q
Bayes学习:利用样本集 x 确定概率密度函数 p(x)
⑴Bayes估计
基本原理:把参数q当作具有某种先验分布p(q) 的随机变量, 对样本x观察使先验分布qˆ转化为后验 分布p(q|x),据此再修正原先的估计 。
假设:
①把所有的样本按类别分成c个子集。每个子集有 N个样本 x = {x1,x2,…,xN}。每类可单独处理。
②已知样本的分布形式p(x|q) ,而参数q 未知。
中xj中的样本是从概率密度为p(x|wj)的总体中
独立抽取的。
②p(x|wj)形式已知, 参数qj未知, 可写成p(x|wj,qj)
。
q ③不同类的参数独立,即x 不包含 Exceltek Electronics (HK) Ltd iConfidential j信息(i≠j)这
• 设某类有N个样本组成了样本集 x={x1,x2,···,xN} 样本是独立从该类抽取的,因此N个随机变量 的联合概率密度
N a
k 1
p( xk
| m) p(m)
a 1/ p(x | m) p(m)dm a-比例因子与μ无
Exceltek Electronics (HK) Ltd Confidential
• 根据上述假设:p(xk | m) ~ N (m,s 2 )
p(m)
~
N
(m0
,s
2 0
)
• 代入计算后验概密 p(μ|x)
④求样本的估计量q
损失函数为二次函数时,贝叶斯估计量qˆ是在
给定x条件下的条件期望:
qˆ=E[q | x] Θqp(q | x)dq
Exceltek Electronics (HK) Ltd Confidential
⑵正态分布情况的Bayes估计举例
①样本为一维正态分布 p(x|m)~N(m,s 2),m未知
直接利用样本设计分类器。非参数(即分类中不 需要估计概率密度函数) 方法之一。
Exceltek Electronics (HK) Ltd Confidential
5. 参数估计的几个基本术语 ⑴统计量:每个训练样本都包含总体信息。根据
从总体中抽取的样本集构造某种函数, 该函数统 计学中称为统计量。
(
x
s
m
)2
似然函数
ln
p( xk
q)
1 2
ln
2q 2
1
2q 2
( xk
q1 ) 2
两个变量的梯度
q
ln
p( xk
q)
q121( 2q2
xk
q1 )
(xk
2q
q1
2 2
)
2
Exceltek Electronics (HK) Ltd Confidential
求极大似然估计qˆ1、qˆ2 需满足下列条件
• 概率密度函数含参数和形式两方面内容,分别称 为参数估计和非参数估计。其估计方法:
1. 监督参数估计
已知样本类别wi及其p(x|wi)形式,而参数未知, 需从训练样本x估计参数q,如一元正态分布的m 、s 2等参数。
Exceltek Electronics (HK) Ltd Confidential
N个样本的概率。 • 极大似然估计值定义:
令l(q) 为样本集x的似然函数,在Θ的参数空间 中能使l(q) 极大化的那个qˆ 值。
Exceltek Electronics (HK) Ltd Confidential
• 极大似然法的主要思想:如果在一次观察中一个 事件出现了,则这个事件出现的可能性最大。事 件x={x1,x2,…xN}在一次观察中(即从总体中抽取
N
s2
1
s0
2
mN
m0 s 02
,
mN
1 N
N
xk
k 1
样本的均值
解得
m
N
s
2 N
Ns 02
Ns
2 0
s
2
s 02s 2
Ns
2 0
s
2
mN
s2
Ns
2 0
s
2
m0
由样本集得到m的后验概密p(m
计算方法和形式完全类似,只是复杂些,计算结
果:
mˆ
1 N
N
xk
k 1
ˆ
1 N
N
(xk
k 1
mˆ )(xk
mˆ )T
其 中xk 为 第k个 抽 样 , 是d维 向 量 。
• 均值向量的极大似然估计是样本的均值,而协方 差的极大似然估计是N个矩阵 ( xk mˆ )( xk mˆ )的T 算 术平均。这是一致估计。
6
p(x |q ) p(xk |q ) 有不同值, k 1
A点和B点时较小,在C点时p(x |q )达极大,对应qˆ为均值。
Exceltek Electronics (HK) Ltd Confidential
• 假设似然函数p(x|q) 对未知参数q 是连续可微的
,则 可qˆ 由典型的求极值的方法求得。
• 对数似然函数H (q )
H (q ) ln[l(q )] ln p( x |q )
ln p( x1, , xN | q1, ,qs )
在N个样本独立抽取的条件下
N
N
H (q ) ln p( xk |q ) ln p( xk |q )
k 1
k 1
N
而 q H (q ) q ln p( xk |q )
• 求极大值的必要条件
单个q 的情况下:dl(q ) 0
dq
若q 是向量,有s个分量q =[q1,···,qs ]T,则多变量
的梯度算子
q
q1
qs
• 对数似然函数H(q)是单调的增函数,为计算方
便,一般用对数似然函数。
Exceltek Electronics (HK) Ltd Confidential
• p(μ|x)是μ的二次函数的指数函数,仍是正态密度, 写成
p(m
|
x)
~
N
(m
N
,s
2 N
)
p(m | x) 1 exp[ 1 ( m mN )2 ]
2s N
2 sN
Exceltek Electronics (HK) Ltd Confidential
1
比较后得到smNN2 s N 2
N
s2
损失函数 (qˆ,q ) (qˆ q )2
R为给定条件下某个估计量的期望损失,常称
为条件风险。使条件风险最小的估计量q,也
就是贝叶斯估计。
• 经推导(P.52定理3.1)使用平方误差损失函数时
,得到估qˆ计 量E(q为|条x)件 期Θq望p(q:| x)dq
Exceltek Electronics (HK) Ltd Confidential
⑵参数空间:概率密度形式已知,参数q 未知, q
可取值的集合称为参数空间,记为Θ。 ⑶点估计、估计量和估计值:构造一个统计量
f(x1,···,xn) 作为参数q 的估计量qˆ 。如果
x1,···,xn属于某类,代入统计量f,就可得到该类 具体的估计值。本章参数估计属于点估计。
⑷区间估计-要求用区间(d1, d2)作为q 可能取值范
q q ③ 为随机变量, 已知其先验概密函数p( Exceltek Electronics (HK) Ltd Confidential ) 。
贝叶斯估计和最小风险贝叶斯决策可统一: • Bayes估计:有一个样本集x,用来估计所属总
体分布的某个参数,使带来的贝叶斯风险最小 。