当前位置：文档之家› 概率密度函数的估计

概率密度函数的估计

Xuegong Zhang, Tsinghua University贝叶斯决策：已知)(i P ω和)|(i p ωx ，对未知样本分类（设计分类器）实际问题：已知一定数目的样本，对未知样本分类（设计分类器）怎么办？一种很自然的想法：首先根据样本估计)|(i p ωx 和)(i P ω，记)|(ˆi p ωx 和)(ˆi P ω 然后用估计的概率密度设计贝叶斯分类器。

——（基于样本的）两步贝叶斯决策“模式识别基础”教学课件希望：当样本数∞→N 时，如此得到的分类器收敛于理论上的最优解。

为此，需 )|()|(ˆi N i p pωωx x ⎯⎯→⎯∞→)()(ˆi N iP P ωω⎯⎯→⎯∞→ 重要前提：z 训练样本的分布能代表样本的真实分布，所谓i.i.d 条件 z 有充分的训练样本本章研究内容：① 如何利用样本集估计概率密度函数？Xuegong Zhang, Tsinghua University“模式识别基础”教学课件3.2参数估计的基本概念和方法 (part1)参数估计(parametric estimation)：z已知概率密度函数的形式，只是其中几个参数未知，目标是根据样本估计这些参数的值。

几个名词：统计量(statistics)：样本的某种函数，用来作为对某参数的估计θ∈参数空间(parametric space)：待估计参数的取值空间ΘXuegong Zhang, Tsinghua University ② 各类样本集i X ，c i ,,1L =中的样本都是从密度为)|(i p ωx 的总体中独立抽取出来的，（独立同分布，i.i.d.）③ )|(i p ωx 具有某种确定的函数形式，只其参数θ未知 ④ 各类样本只包含本类分布的信息其中，参数θ通常是向量，比如一维正态分布),(21σµi N ，未知参数可能是⎥⎦⎤⎢⎣⎡=2i i i σµθ此时)|(i p ωx 可写成),|(i i p θωx 或)|(i p θx 。

“模式识别基础”教学课件鉴于上述假设，我们可以只考虑一类样本，记已知样本为{}N x x x ,,,21L =X似然函数（likelihood function ）)|()|,,,()|()(121θθθθi Ni N x p x x x p p l ∏====L X—— 在参数θ下观测到样本集X 的概率（联合分布）密度基本思想：θθˆ=)(θlXuegong Zhang, Tsinghua University的解（必要条件）。

若未知参数不止一个，即Ts ],,,[21θθθθL =，记梯度算子Ts ⎥⎦⎤⎢⎣⎡∂∂∂∂∂∂=∇θθθθ,,,21L 则最大似然估计量的必要条件由S 个方程组成：0)(=∇θθH“模式识别基础”教学课件讨论：z 如果)(θl 或)(θH 连续可导，存在最大值，且上述必要条件方程组有唯一解，则其解就是最大似然估计量。

（比如多元正态分布）。

z 如果必要条件有多解，则需从中求似然函数最大者z 若不满足连续可导，则无一般性方法，用其它方法求最大（见课本均匀分布例）Xuegong Zhang, Tsinghua University 以单变量正态分布为例T ],[21θθθ=，µθ=1，22σθ= ⎥⎥⎦⎤⎢⎢⎣⎡⎟⎠⎞⎜⎝⎛−−=221exp 21)|(σµσπθx x p样本集 {}N x x x ,,,21L =X“模式识别基础”教学课件似然函数 )|()|()ln(1θθk Nk x p p x ∏===X对数似然函数 )|(ln )(ln )(1θθk N k x P x l H ∑===最大似然估计量θˆ满足方程 0)|(ln )(1=∇=∇∑=θθθθk Nk x p H而Xuegong Zhang, Tsinghua University解得k Nk x N∑===111ˆˆθµ2122)ˆ(1ˆˆµθσ−==∑=k Nk x N“模式识别基础”教学课件3.2 参数估计的基本概念和方法 (part2)3.2.2 贝叶斯估计和贝叶斯学习（一）贝叶斯估计思路与贝叶斯决策类似，只是离散的决策状态变成了连续的估计。

思考题：请课后与贝叶斯决策比较Xuegong Zhang, Tsinghua University 13损失函数：把θ估计为θ所造成的损失，记为),(θθλ期望风险：x x d d p R d E θθθθλΘ),(),ˆ(∫∫=x x x d d p p dEθθθθλΘ)()|(),ˆ(∫∫=x x x d p R dE)()|ˆ(θ∫=其中, dE =x ，Θθ∈“模式识别基础”教学课件条件风险：θθθθλθΘd p R )|(),ˆ()|ˆ(x x ∫=d E =x最小化期望风险 ⇒ 最小化条件风险（对所有可能的x ）有限样本集下，最小经经验风险：θθθθλθΘd p R )|(),ˆ()|ˆ(X X ∫=贝叶斯估计量：（在样本集X 下）使条件风险（经验风险）最小的估计量θˆ。

Xuegong Zhang, Tsinghua University15定理3.1 自学证明过程如果采用平方误差损失函数，则θ的贝叶斯估计量θˆ是在给定x 时θ的条件期望，即∫Θ==θθθθθd p E )|(]|[ˆx x同理可得到，在给定样本集X 下，θ的贝叶斯估计是：∫Θ==θθθθθd p E )|(]|[ˆX X “模式识别基础”教学课件求贝叶斯估计的方法：（平方误差损失下）（1）确定θ的先验分布 )(θp（2）求样本集的联合分布 )|()|(1θθi Ni p p x ∏==X（3）求θ的后验概率分布∫Θ=θθθθθθd p p p p p )()|()()|()|(X X X（4）求θ的贝叶斯估计量 ∫Θ=θθθθd p )|(ˆXXuegong Zhang, Tsinghua University 17（二）贝叶斯学习考虑学习样本个数N ，记样本集{}N x x x ,,,21L =X1>N 时有 )|()|()|(1θθθ−=N N Np p p XXx因此有递推后验概率公式：∫−−=θθθθθθd p p p p p N NN N N)|()|()|()|()|(11XXX xx“模式识别基础”教学课件设)()|(θθp p =°X ，则随着样本数增多，可得后验概率密度函数序列：)(θp ，)|(1x θp ，L ),,|(21x x θp—— 参数估计的递推贝叶斯方法（Recursive Bayes Incremental Learning ）如果此序列收敛于以真实参数值为中心的δ函数，则称样本分布具有贝叶斯学习（Bayesian Learning ）性质。

此时)()ˆ|()|(x x x p p p N ===∞→θθXXuegong Zhang, Tsinghua University 19“模式识别基础”教学课件估计量的性质与评价标准 —— 无偏性、有效性和一致性· 无偏性： θθ=)],,,(ˆ[21NE x x x L 渐近无偏性： θθ∞→=N NE ]ˆ[ · 有效性：对估计1ˆθ和2ˆθ，若方差)ˆ()ˆ(2212θσθσ<，则1ˆθ更有效· 一致性：0>∀ε，()0ˆlim =>−∞→εθθNN PXuegong Zhang, Tsinghua University 21),(~)(∑µN p x ∑==Ni i N11ˆx µ，∑=−−=∑Ni T i iN 1)ˆ)(ˆ(1ˆµµx x一维：∑==N i i x N 11ˆµ，∑=−=N i i x N 122)ˆ(1ˆµσ“模式识别基础”教学课件3.3.2 贝叶斯估计和贝叶斯学习示例（一）贝叶斯估计一维，),(~)|(2σµµN x p ，2σ已知，估计µ假设先验分布 ),(~)(200σµµN p结论： 0220222020ˆµσσσσσσµ+++=N m N N NN∑Xuegong Zhang, Tsinghua University 23若00=σ，则0ˆµµ≡ （先验知识可靠，样本不起作用）若σσ>>0，则N m =µˆ （先验知识十分不确定，完全依靠样本信息）（二）贝叶斯学习()22,~21exp 21)|(NN N NN N N µp σµσµµσπ⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎟⎟⎠⎞⎜⎜⎝⎛−−=X“模式识别基础”教学课件∫=µµµd p p p N N )|()|()|(x x X X0220222020µσσσσσσµ+++=N m N N N N2202202σσσσσ+=N N当∞→N 时，02→N σ，δµ→)|(X p 函数。

()222,~1exp 1)|(N N N N p σσµµ+⎪⎬⎫⎪⎨⎧⎟⎟⎞⎜⎜⎛−−=x x XXuegong Zhang, Tsinghua University 25非监督参数估计指样本类别未知，但各类条件概率密度函数的形式已知，根据所有样本估计各类密度函数中的参数。

本节只介绍非监督最大似然估计的思路“模式识别基础”教学课件3.4.1 非监督参数估计的最大似然法（一）假设条件：1. 样本集{}N x x ,,1L =X 中的样本属于C 个类别，但不知各样本属哪类2. 类先验概率)(i P ω，c i ,,1L =已知3. 类条件概率密度形式已知 ),|(i i p θωx ，c i ,,1L =4. 未知是仅是c 个参数向量c θθθ,,,21L 的值所有未知参数组成的向量记为[]T θθθθ,,,L =Xuegong Zhang, Tsinghua University 27设样本集X 中的样本是从混合密度为)|(θx p 的总体中独立抽取的，即满足独立同分布条件，θ确定但未知，则似然函数)|()|()(1θθθi Ni p p l x ∏===X对数似然函数 )|(ln )](ln[)(1θθθi Ni p l H x ∑===最大似然估计θˆ就是使)(θl 或)(θH 取最大的θ值。

“模式识别基础”教学课件（三）可识别性问题求出θˆ，就得到了c θθˆ,,ˆ1L ，即从混合密度函数中恢复出了分量密度函数。

e商务文档

概率密度函数的估计

相关文档推荐：