当前位置:文档之家› 参数估计与非参数估计

参数估计与非参数估计


V
所以起伏比较大,噪声比较大,需要对V进行改进.
对体积V进行改进:
为了估计X点的密度,我们构造一串包括X的区域序列R1,R2,.. RN. 对R1采用一个样本进行估计,对R2采用二个样本进行估计..。 设VN是RN的体积,KN是N个样本落入VN的样本数则
kN 密度的第N次估计: PN (x) VN
ΣN , μN 有以下关系
1 N 1 1 ...........(A)
N
0
1 NN
1 ( N xk )
1 0
0.
.......( B)
k 1
1
由( A)式得: N
0
0
1 N
1 N
1
代入(B)
式得:
N
0
0
1 N
(
1 N
N k 1
xk)
1 N
( 1 0N
1 ) 0
2
N k 1
Xk
0 )]}
2 0
其中a’,a’’包含了所有与μ无关的因子
∴P(μ| xi)是u的二次函数的指数函数
∴P(μ| xi)仍然是一个正态函数, P(μ|Xi)=N(μN,σN2)
另外后验概率可以直接写成正态形式:P( | X i)
1
exp[ 1
N
2
]
2 N
2 N
比较以上两个式子,对应的系数应该相等
2 ]
2 N
2 N
P(x | )
1
exp[ 1
x
2
]
2
2
服从正态分布
代入P(x | xi) P(x | ) P( | xi)d P(x | ) P( | xi)d
1
1 x 2
exp[
]
1
exp[ 1
N
2
]d
2
2
2 N
2 N
1
exp[ 1
x N
k
1)
0
N
k 1
2
log
P( X
k
| i)
N
[
k 1
1
2 2
(X k 1)2]
2
2 2
0
1 1
1 N
N k 1
Xk
即学习样本的算术平均
2
2 1
1 N
N k 1
2
Xk
样本方差
• 讨论: 1.正态总体均值的最大似然估计即为学习样本的算术平均 2.正态总体方差的最大似然估计与样本的方差不同,当N较 大的时候,二者的差别不大。

lim
N
KN N
0
,KN的变化远小于N的变化。
因此尽管在
R内落入了很多的样N满足以上条件:
∴对概率P的估计:P k 。 N
k 是P的一个比较好的估计 N
k
P R P(x')dx' N
设P(x’)在R内连续变化,当R逐渐减小的时候,小到使P(x)在其上
几乎没有变化时,则
k
P P(x')dx' P(x) V
R
N
其中 V dx' 是R包围的体积 R
∴ P(x) V P k
N
k
∴ 条件密度的估计:P(x) N
V
(V足够小)
讨论:① 当V固定的时候N增加, k也增加,当 N 时 k
P
k
1
P(x)
k N
1
只反映了P(x)的空间平均估计
N
VV
而反映不出空间的变化
② N固定,体积变小
k
当 V 0时,k=0时 P(x) N 0
V
k
k 0 时 P(x) N
§5-2参数估计理论 一.最大似然估计
假定:
①待估参数θ是确定的未知量 ②按类别把样本分成M类X1,X2,X3,… XM
其中第i类的样本共N个
Xi = (X1,X2,… XN)T 并且是独立从总体中抽取的
③ Xi中的样本不包含 j (i≠j)的信息,所以可以对每一
类样本独立进行处理。
④ 第i类的待估参数 i (1, 2,... n)T
N
N
N
2 0
2 0
2
N k 1
Xk
N
2
2 0
2
0
若令P(μ)=N(μ0, σ02 )=N(0,1)
1
N
Xk 与最大似然估计相似,只是分母不同
N N 1 k 1
三.贝叶斯学习 1.贝叶斯学习的概念:求出μ的后验概率之后,直接去推导总
体分布即P(X | Xi) P(X | )P( | Xi)d P(X | )P( | Xi)d
1 N
N
Xk
k 1
这说明未知均值的最大似然估计正好是训练样本的算术
平均。
② ∑, μ均未知
A. 一维情况:n=1对于每个学习样本只有一个特征的简单
情况:
1
1,
2
2 1
log
P(
X
k
|
i)
1 2
log
2
2
1
2
2
Xk
2
1
(n=1)由上式得
N
代入
k 1
1
log
P(X k
| i)
N1 (X
k 1 2
出使它最大时的θi值。
∵学习样本独立从总体样本集中抽取的
N
∴ P( X i | i. i) P( X i | i) P( X k | i)
k 1
N个学习样本出现概率的乘积
N
N
取对数 :log P( X k | i) log P( X k | i)
k 1
k 1
对θi求导,并令它为0:
i=1,2,…M
所以后验概率
P(
|
X i)
P( X i | ).P() P( X i | )P()d(贝叶斯公式)
因为N个样本是独立抽取的,所以上式可以写成
N
P( | X i) a P(X k | ).P()
k 1
其中 a
1
P( X i | )P()d 为比例因子,只与x有关,与μ无关
这就是在多维情况下,对μ的估计
将N代入P(x | xi) P(x | )P( | xi)d就可以
设计Bayes分类器
§ 5-3非参数估计
参数估计要求密度函数的形式已知,但这种假定有时并不成
立,常见的一些函数形式很难拟合实际的概率密度,经典的密
度函数都是单峰的,而在许多实际情况中却是多峰的,因此用

1 N
2
N 2
1
2 0
N
N 2
1
2
N k 1
Xk
0
2 0
解以上两式得
2 0
N
Xk
2
0
N
N
2 0
2
k 1
N
2 0
2
N 2
2 0
2
N
2 0
2
将μN,σN2代入P(μ|Xi)可以得到后验概率,再用公式
P( | X i)d , 求的估计
∵ P( | X i)d N
∴对μ的估计为
估计则是把待估的参数作为具有某种先验分布的随机变量,通
过对第i类学习样本Xi的观察,使概率密度分布P(Xi/θ)转化为
后验概率P(θ/Xi) ,再求贝叶斯估计。
估计步骤:
① 确定θ的先验分布P(θ),待估参数为随机变量。
② 用第i类样本xi=(x1, x2,…. xN)T求出样本的联合概率密度分布
P(xi|θ),它是θ的函数。 ③ 利用贝叶斯公式,求θ的后验概率
当观察一个样本时,N=1就会有一个μ的估计值的修正值 当观察N=4时,对μ进行修正,向真正的μ靠近 当观察N=9时,对μ进行修正,向真正的μ靠的更近 当N↑,μN就反映了观察到N个样本后对μ的最好推测,而σN2 反映了这种推测的不确定性, N↑, σN2↓,σN2 随观察样本增 加而单调减小,且当N→∞, σN2 →0 当N↑,P(μ|xi)越来越尖峰突起 N→∞, P(μ|xi)→σ函数,这个过程成为贝叶斯学习。

2 N
2
代替原来的方差
2
即可。
③把估计值μ 作为μ的实际值,那么使方差由原来的 2 变
N

2 N
2
,使方差增大
⑵多维正态( 已知Σ,估计μ ) 设P(x|μ)=N(μ,∑) P(μ)=N(μ0,∑0).
根据Bayes公式,仿上面步骤可以得到:
P(
|
xi)
a
exp[
1 2
N
T
1
N
N
]
其中a与μ无关
P(x)
P(X’)为P(X)在R内的变化值,P(X)就是要求的总体概率密度
假设有N个样本X=(X1, X2,… XN)T都是按照P(X)从总体中独 立抽取的
若N个样本中有k个落入在R内的概率符合二项分布
Pk
C
k N
pk
1 P
N k
数学期望:E(k)=k=NP
其中P是样本X落入R内的概率 Pk是k个样本落入R内的概率
根据以上四条假定,我们下边就可以只利用第i类学习样 本来估计第i类的概率密度,其它类的概率密度由其它类 的学习样本来估计。
1.一般原则:
第i类样本的类条件概率密度:
P(Xi/ωi)= P(Xi/ωi﹒θi) = P(Xi/θi) 原属于i类的学习样本为Xi=(X1 , X2 ,…XN,)T i=1,2,…M 求θi的最大似然估计就是把P(Xi/θi)看成θi的函数,求
相关主题