非参数估计(完整)
此方法的有效性取决于样本数量的多少, 此方法的有效性取决于样本数量的多少,以 及区域体积选择的合适。 及区域体积选择的合适。
概率密度估计
收敛性问题:样本数量 无穷大是 无穷大是, 收敛性问题:样本数量N无穷大是,估计的概率函 数是否收敛到真实值? 数是否收敛到真实值?
N →∞
ˆ lim pN ( x ) = p ( x )
实际中,ˆ 越精确,要求: 实际中,p ( x ) 越精确,要求: R → 0 实际中, 是有限的 是有限的: 实际中,N是有限的: 绝大部分区间没有样本: ˆ 当 R → 0 时,绝大部分区间没有样本: p ( x ) = 0
ˆ 如果侥幸存在一个样本, 如果侥幸存在一个样本,则: p ( x ) = ∞
概率密度估计
直方图的例子
概率密度估计
非参数概率密度估计的核心思路:
一个向量x落在区域 中的概率 一个向量 落在区域R中的概率 为: P = ∫ p ( x )dx 落在区域 中的概率P为
R
因此,可以通过统计概率 来估计概率密度函数 来估计概率密度函数p(x) 因此,可以通过统计概率P来估计概率密度函数
kn / N pn ( x ) = Vn
的第n次估计 为p(x)的第 次估计 的第
概率密度估计
能够收敛到p(x),那么必须满足: ,那么必须满足: 如果要求 pn ( x ) 能够收敛到
n →∞
lim Vn = 0
n →∞
lim kn = ∞
lim kn / n = 0
n →∞
选择V 选择 n
选择k 选择 n
1 ϕ (u) = 0 1 u j ≤ , j = 1,L , d 2 otherwise
中心在原点的 单位超立方体
Parzen窗估计
落入以X为中心的立方体区域的样本数为: 落入以 为中心的立方体区域的样本数为: 为中心的立方体区域的样本数为
x − xi kn = ∑ ϕ i =1 hn X处的密度估计为: 处的密度估计为: 处的密度估计为
p (x)
概率密度估计
直方图方法: 直方图方法:非参数概率密度估计的最简单 方法
1. 把x的每个分量分成k 个等间隔小窗, x的每个分量分成 个等间隔小窗, 的每个分量分成k 则形成k 个小舱) ( x∈Ed ,则形成 d 个小舱) ∈ 2. 统计落入各个小舱内的样本数 i 统计落入各个小舱内的样本数q 3. 相应小舱的概率密度为: qi /(NV ) 相应小舱的概率密度为: 总数, 小舱体积) ( N :样本 总数,V :小舱体积)
10 . 0
h 1 = 0 . 25
h1 = 1
h1 = 4
用
1 .0 0 .1 0 . 01 0 . 001 10 . 0 1 .0 0 .1 0 . 01 0 . 001 10 . 0
Parzen 窗 法 估 计 两 个 均 匀 分 布 的 实 验
1 .0 0 .1 0 . 01 0 . 001 10 . 0 1 .0 0 .1 0 . 01 0 . 001
n
kn / n 1 n 1 x − xi ˆ pn ( x ) = = ∑ ϕ Vn n i =1 Vn hn
可以验证: ˆ 可以验证: pn ( x ) ≥ 0
ˆ ∫ p ( x )dx = 1
n
窗函数的要求
Parzen窗估计过程是一个内插过程,样本xi 距离x越近,对概率密度估计的贡献越大,越 远贡献越小。 只要满足如下条件,就可以作为窗函数:
− 2
0
2
− 2
0
2
− 2
0
2
由图看出, PN(x)随N, h1的变化情况 ①当N=1时, PN(x)是一个以第一个样本为中心的正 态曲线,与窗函数差不多。
②当N=16及N=256时
h1=0.25 曲线起伏很大,噪声大 h1=1 起伏减小 h1=4 曲线平坦 ③当N→∞时, PN(x)收敛于一平滑的正态曲线, 估计曲线较好。
Pk = P k (1 − P ) k
k 的期望值为: E [ k ] = NP 的期望值为: 的估计: 对P的估计: 的估计
ˆ= k P N
当 N → ∞ 时, 估计是非 常精确的
概率密度估计
假设p(x)是连续的,且R足够小使得 是连续的, 足够小使得p(x)在R内几乎 假设 是连续的 足够小使得 在 内几乎 没有变化。 没有变化。 是包含样本点x的一个区域 令R是包含样本点 的一个区域,其体积为 ,设有 是包含样本点 的一个区域,其体积为V, N个训练样本 其中有k落在区域 N个训练样本,其中有k落在区域R中,则可对概率 个训练样本, 落在区域R中 密度作出一个估计: 密度作出一个估计: ˆ= k P P = ∫ p ( x )dx = p ( x ) V N R
ϕ (u ) ≥ 0
∫ ϕ ( u ) du = 1
窗函数的形式
方窗函数
1 1 , | u |≤ ϕ (u ) = 2 0 .其他
正态窗函数
指数窗函数
ϕ (u ) =
1 exp{− u 2} 2 2π
1
ϕ ( u ) = exp{ − | u |}
x − xi 其中: 其中:u = hn
窗口宽度的影响
Parzen估计的性能与窗宽参数hn紧密相关
当hn较大时,x和中心xi距离大小的影响程度变弱,估计 的p(x)较为平滑,分辨率较差。 当hn较小时,x和中心xi距离大小的影响程度变强,估计 的p(x)较为尖锐,分辨率较好。
窗口宽度的影响
5个样本的 个样本的Parzen窗估计: 窗估计: 个样本的 窗估计
非参数估计
刘芳, 刘芳,戚玉涛 qi_yutao@
引言
参数化估计: 方法和 方法和Bayesian估计。假设概率 估计。 参数化估计:ML方法和 估计 密度形式已知。 密度形式已知。 实际中概率密度形式往往未知。 实际中概率密度形式往往未知。 实际中概率密度往往是多模的, 实际中概率密度往往是多模的,即有多个局部极大 值。 实际中样本维数较高, 实际中样本维数较高,且关于高维密度函数可以表 示成一些低维密度函数乘积的假设通常也不成立。 示成一些低维密度函数乘积的假设通常也不成立。 本章介绍非参数密度估计方法: 本章介绍非参数密度估计方法:能处理任意的概率 分布,而不必假设密度函数的形式已知。 分布,而不必假设密度函数的形式已知。
ห้องสมุดไป่ตู้
概率密度估计
假设N个样本的集合 假设 个样本的集合 是根据概率密度 函数为p(x)的分布独立抽取得到的。 的分布独立抽取得到的。 函数为 的分布独立抽取得到的 那么,有k个样本落在区域 中的概率服从二项式 那么, 个样本落在区域R中的概率服从二项式 个样本落在区域 定理: 定理: N N −k
例:设待估计的P(x)是个均值为0,方差为1的正态密度 函数。若随机地抽取X样本中的1个、 16个、 256个作为 学习样本xi,试用窗口法估计PN(x)。 解:设窗口函数为正态的, σ=1,μ=0
ϕ(
| x − xi | hN
1 1 | x − xi | )] )= exp[− ( 2 hN 2π
窗函数
密度估计值
渐近收敛性
Parzen窗密度估计的渐近收敛性:
无偏性: 当 Vn → 0 时,E pl ( x ) → p ( x ) ˆ 一致性:
n →∞
lim σ 2 pn ( x ) = 0 ˆ
例:对于一个二类( ω1 ,ω2 )识别问题,随机抽取ω1类 的6个样本X=(x1,x2,…. x6) ω1=(x1,x2,…. x6) =(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1) 估计P(x|ω1)即PN(x) x6 0 1 2 x5 x3 x1 x2 3 4
k/N ˆ p (x) = V
对p(x) 在小区域内的平均值的估计
概率密度估计
当样本数量N固定时,体积 的大小对估计的 当样本数量 固定时,体积V的大小对估计的 固定时 效果影响很大。 效果影响很大。
过大则平滑过多,不够精确; 过大则平滑过多,不够精确; 过小则可能导致在此区域内无样本点, 过小则可能导致在此区域内无样本点,k=0。 。
例:待估的密度函数为二项分布 解:此为多峰情况的估计 设窗函数为正态
-2.5<x<-2 1 P(x) = 0.25 0<x<2 0 x为其它
-2.5 -2
P(x)
1
0.25
0
2 x
解:此为多峰情况的估计 1 设窗函数为正态 ϕ (u ) =
1 2 h1 exp[ − u ], hN = 2 2π N
−2
0
2
−2
0
2
−2
0
2
当N=1、16、256、 ∞时的PN(x)估计如图所示 ①当N=1时, PN(x) 实际是窗函数。 ②当N=16及N=256时
h1=0.25 曲线起伏大 h1=1 曲线起伏减小 h1=4 曲线平坦 ③当N→∞时,曲线较好。
Parzen窗估计
优点
由前面的例子可以看出, Parzen窗估计的优点是应用的 普遍性。对规则分布,非规则分布,单锋或多峰分布都 可用此法进行密度估计。 可以获得较为光滑且分辨率较高的密度估计,实现了光 滑性和分辨率之间的一个较好平衡。
2
hN = h1 N
V N = hN
hN:窗长度,N为样本数,h1为选定可调节的参数。
1 PN ( x) = N
∑V
i =1
N
1
N
ϕ(
| x − xi | hN
)= h1
1
∑ N
i =1
N
1 1 | x − xi | N exp[− 2 2π h1