当前位置:文档之家› 概率密度函数的估计

概率密度函数的估计

Xuegong Zhang, Tsinghua University贝叶斯决策: 已知)(i P ω和)|(i p ωx ,对未知样本分类(设计分类器) 实际问题: 已知一定数目的样本,对未知样本分类(设计分类器)怎么办? 一种很自然的想法:首先根据样本估计)|(i p ωx 和)(i P ω,记)|(ˆi p ωx 和)(ˆi P ω 然后用估计的概率密度设计贝叶斯分类器。

——(基于样本的)两步贝叶斯决策“模式识别基础”教学课件希望:当样本数∞→N 时,如此得到的分类器收敛于理论上的最优解。

为此, 需 )|()|(ˆi N i p pωωx x ⎯⎯→⎯∞→)()(ˆi N iP P ωω⎯⎯→⎯∞→ 重要前提:z 训练样本的分布能代表样本的真实分布,所谓i.i.d 条件 z 有充分的训练样本本章研究内容:① 如何利用样本集估计概率密度函数?Xuegong Zhang, Tsinghua University“模式识别基础”教学课件3.2参数估计的基本概念和方法 (part1)参数估计(parametric estimation):z已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。

几个名词:统计量(statistics):样本的某种函数,用来作为对某参数的估计θ∈参数空间(parametric space):待估计参数的取值空间ΘXuegong Zhang, Tsinghua University ② 各类样本集i X ,c i ,,1L =中的样本都是从密度为)|(i p ωx 的总体中独立抽取出来的,(独立同分布,i.i.d.)③ )|(i p ωx 具有某种确定的函数形式,只其参数θ未知 ④ 各类样本只包含本类分布的信息其中,参数θ通常是向量,比如一维正态分布),(21σµi N ,未知参数可能是⎥⎦⎤⎢⎣⎡=2i i i σµθ此时)|(i p ωx 可写成),|(i i p θωx 或)|(i p θx 。

“模式识别基础”教学课件鉴于上述假设,我们可以只考虑一类样本,记已知样本为{}N x x x ,,,21L =X似然函数(likelihood function ))|()|,,,()|()(121θθθθi Ni N x p x x x p p l ∏====L X—— 在参数θ下观测到样本集X 的概率(联合分布)密度基本思想:θθˆ=)(θlXuegong Zhang, Tsinghua University的解(必要条件)。

若未知参数不止一个,即Ts ],,,[21θθθθL =,记梯度算子Ts ⎥⎦⎤⎢⎣⎡∂∂∂∂∂∂=∇θθθθ,,,21L 则最大似然估计量的必要条件由S 个方程组成:0)(=∇θθH“模式识别基础”教学课件讨论:z 如果)(θl 或)(θH 连续可导,存在最大值,且上述必要条件方程组有唯一解,则其解就是最大似然估计量。

(比如多元正态分布)。

z 如果必要条件有多解,则需从中求似然函数最大者z 若不满足连续可导,则无一般性方法,用其它方法求最大(见课本均匀分布例)Xuegong Zhang, Tsinghua University 以单变量正态分布为例T ],[21θθθ=,µθ=1,22σθ= ⎥⎥⎦⎤⎢⎢⎣⎡⎟⎠⎞⎜⎝⎛−−=221exp 21)|(σµσπθx x p样本集 {}N x x x ,,,21L =X“模式识别基础”教学课件似然函数 )|()|()ln(1θθk Nk x p p x ∏===X对数似然函数 )|(ln )(ln )(1θθk N k x P x l H ∑===最大似然估计量θˆ满足方程 0)|(ln )(1=∇=∇∑=θθθθk Nk x p H而Xuegong Zhang, Tsinghua University解得k Nk x N∑===111ˆˆθµ2122)ˆ(1ˆˆµθσ−==∑=k Nk x N“模式识别基础”教学课件3.2 参数估计的基本概念和方法 (part2)3.2.2 贝叶斯估计和贝叶斯学习(一)贝叶斯估计思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。

思考题:请课后与贝叶斯决策比较Xuegong Zhang, Tsinghua University 13损失函数:把θ估计为θ所造成的损失,记为),(θθλ期望风险:x x d d p R d E θθθθλΘ),(),ˆ(∫∫=x x x d d p p dEθθθθλΘ)()|(),ˆ(∫∫=x x x d p R dE)()|ˆ(θ∫=其中, dE =x ,Θθ∈“模式识别基础”教学课件条件风险:θθθθλθΘd p R )|(),ˆ()|ˆ(x x ∫=d E =x最小化期望风险 ⇒ 最小化条件风险 (对所有可能的x )有限样本集下,最小经经验风险:θθθθλθΘd p R )|(),ˆ()|ˆ(X X ∫=贝叶斯估计量:(在样本集X 下)使条件风险(经验风险)最小的估计量θˆ。

Xuegong Zhang, Tsinghua University15定理3.1 自学证明过程如果采用平方误差损失函数,则θ的贝叶斯估计量θˆ是在给定x 时θ的条件期望,即∫Θ==θθθθθd p E )|(]|[ˆx x同理可得到,在给定样本集X 下,θ的贝叶斯估计是:∫Θ==θθθθθd p E )|(]|[ˆX X “模式识别基础”教学课件求贝叶斯估计的方法:(平方误差损失下)(1)确定θ的先验分布 )(θp(2)求样本集的联合分布 )|()|(1θθi Ni p p x ∏==X(3)求θ的后验概率分布∫Θ=θθθθθθd p p p p p )()|()()|()|(X X X(4)求θ的贝叶斯估计量 ∫Θ=θθθθd p )|(ˆXXuegong Zhang, Tsinghua University 17(二)贝叶斯学习考虑学习样本个数N ,记样本集{}N x x x ,,,21L =X1>N 时有 )|()|()|(1θθθ−=N N Np p p XXx因此有递推后验概率公式:∫−−=θθθθθθd p p p p p N NN N N)|()|()|()|()|(11XXX xx“模式识别基础”教学课件设)()|(θθp p =°X ,则随着样本数增多,可得后验概率密度函数序列:)(θp ,)|(1x θp ,L ),,|(21x x θp—— 参数估计的递推贝叶斯方法(Recursive Bayes Incremental Learning ) 如果此序列收敛于以真实参数值为中心的δ函数,则称样本分布具有贝叶斯学习(Bayesian Learning )性质。

此时)()ˆ|()|(x x x p p p N ===∞→θθXXuegong Zhang, Tsinghua University 19“模式识别基础”教学课件估计量的性质与评价标准 —— 无偏性、有效性和一致性· 无偏性: θθ=)],,,(ˆ[21NE x x x L 渐近无偏性: θθ∞→=N NE ]ˆ[ · 有效性:对估计1ˆθ和2ˆθ,若方差)ˆ()ˆ(2212θσθσ<,则1ˆθ更有效· 一致性:0>∀ε,()0ˆlim =>−∞→εθθNN PXuegong Zhang, Tsinghua University 21),(~)(∑µN p x ∑==Ni i N11ˆx µ,∑=−−=∑Ni T i iN 1)ˆ)(ˆ(1ˆµµx x一维:∑==N i i x N 11ˆµ,∑=−=N i i x N 122)ˆ(1ˆµσ“模式识别基础”教学课件3.3.2 贝叶斯估计和贝叶斯学习示例(一)贝叶斯估计一维,),(~)|(2σµµN x p ,2σ已知,估计µ假设先验分布 ),(~)(200σµµN p结论: 0220222020ˆµσσσσσσµ+++=N m N N NN∑Xuegong Zhang, Tsinghua University 23若00=σ, 则0ˆµµ≡ (先验知识可靠,样本不起作用) 若σσ>>0,则N m =µˆ (先验知识十分不确定,完全依靠样本信息)(二)贝叶斯学习()22,~21exp 21)|(NN N NN N N µp σµσµµσπ⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎟⎟⎠⎞⎜⎜⎝⎛−−=X“模式识别基础”教学课件∫=µµµd p p p N N )|()|()|(x x X X0220222020µσσσσσσµ+++=N m N N N N2202202σσσσσ+=N N当∞→N 时,02→N σ,δµ→)|(X p 函数。

()222,~1exp 1)|(N N N N p σσµµ+⎪⎬⎫⎪⎨⎧⎟⎟⎞⎜⎜⎛−−=x x XXuegong Zhang, Tsinghua University 25非监督参数估计指样本类别未知,但各类条件概率密度函数的形式已知,根据所有样本估计各类密度函数中的参数。

本节只介绍非监督最大似然估计的思路“模式识别基础”教学课件3.4.1 非监督参数估计的最大似然法(一)假设条件:1. 样本集{}N x x ,,1L =X 中的样本属于C 个类别,但不知各样本属哪类2. 类先验概率)(i P ω,c i ,,1L =已知3. 类条件概率密度形式已知 ),|(i i p θωx ,c i ,,1L =4. 未知是仅是c 个参数向量c θθθ,,,21L 的值所有未知参数组成的向量记为[]T θθθθ,,,L =Xuegong Zhang, Tsinghua University 27设样本集X 中的样本是从混合密度为)|(θx p 的总体中独立抽取的,即满足独立同分布条件,θ确定但未知,则 似然函数)|()|()(1θθθi Ni p p l x ∏===X对数似然函数 )|(ln )](ln[)(1θθθi Ni p l H x ∑===最大似然估计θˆ就是使)(θl 或)(θH 取最大的θ值。

“模式识别基础”教学课件(三)可识别性问题求出θˆ,就得到了c θθˆ,,ˆ1L ,即从混合密度函数中恢复出了分量密度函数。

相关主题