当前位置:文档之家› 概率神经网络讲解

概率神经网络讲解

概率神经网络讲解Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】DonaldProbabilistic Neural NetworksNeural Networks,,,1990概率神经网络摘要:以指数函数替代神经网络中常用的S形激活函数,进而构造出能够计算非线性判别边界的概率神经网络(PNN),该判定边界接近于贝叶斯最佳判定面。

还讨论了拥有类似性质的其他激活函数。

所提出的这种4层神经网络能够把任何输入模式映射到多个类别。

如果能取得新数据的话,可以使用新数据实时地修改判定边界,并可以使用完全并行运行的人工“神经元”付诸实现。

还为估计类别的出现概率和可靠性,以及做判别作好准备。

对于反向传播增加的适应时间占总计算时间的重大部分的问题,这种方法显示出非常快速的优点。

PNN范式比反向传播快200,000倍。

关键词:神经网格,概率密度函数,并行处理机,“神经元”,模式识别,Parzen窗口,贝叶斯策略,相联存储器1. 动机神经网络常用来依据向实例学习进行模式分类。

不同的神经网格范式(paradigm)使用不同的学习规则,但都以某种方式,根据一组训练样本确定模式的统计量,然后根据这些统计量进行新模式分类。

通用方法如反向传播,使用探试法获得基础的类别统计量。

探试法通常包含对系统参数的许多小的改进,逐渐提高系统的性能。

除了训练需要长的计算时间外,还表明,反向传播增加的适应近似法对错误的最小值很敏感。

为了改进这种方法,找到了基于己确立的统计原理的分类方法。

可以表明,尽管最终得到的网络在结构上类似于反向传播,且其主要区别在于以统计方法推导的激活函数替代S形激活函数,但这个网络具有的特点是:在某些易满足的条件下,以PNN实现的判别边界渐进地逼近贝叶斯最佳判定面。

为了了解PNN范式的基础,通常从贝叶斯判定策略以及概率密度函数的非参数估计的讨论开始。

之后可以表明,这种统计方法如何映射到前馈神经网络结构,网络结构是以许多简单处理器(神经元)代表的,所有处理器都是并行运行。

2. 模式分类的贝叶斯判定策略用于模式分类的判定规则或策略的公认标准是:在某种意义上,使“预期风险”最小。

这样的策略称之“贝叶斯策略”,并适用于包含许多类别的问题。

现在考察两类的情况,其中,已知类别状态θ为A θ或B θ。

如果想要根据p 维向量X T=[X 1…X i …X p ]描述的一组测量结果,判定θ=A θ或θ=B θ,贝叶斯判定规则变成:()A d X θ= 如果()()A A A B B B h l f X h l f X >()B d X θ= 如果()()A A A B B B h l f X h l f X <(1)式中,()A f X 和()B f X 分别为类别A 和B 的概率密度函数;A l 为θ=A θ时判定()B d X θ=的损失函数;B l 为θ=B θ时判定()A d X θ=的损失函数(取正确判定的损失等于0);A h 为模式来自类别A 出现的先验概率;和B h =1-A h 为θ=B θ的先验概率。

于是,贝叶斯判定规则()A d X θ=的区域与贝叶斯判定规则()B d X θ=的区域间的界限可用下式求得()()A B f X Kf X = (2) 式中/B B A A K h l h l = (3)一般地,由式(2)确定的两类判定面可以是任意复杂的, 因为对密度没有约束,只是所有概率密度函数(PDF )都必须满足的那些条件,即它们处处为非负,是可积的,在全空间的积分等于1。

同样的判定规则可适用于多类问题。

使用式(2)的关键是根据训练模式估计PDF 的能力。

通常,先验概率为己知,或者可以准确地加以估计,损失函数需要主观估计。

然而,如果将要划分类别的模式的概率密度未知,并且给出的是一组训练模式(训练样本),那么,提供未知的基础概率密度的唯一线索是这些样本。

在Parzen (1962)的经典论文中,他指出,只要基础的母体密度是连续的,类别的PDF 估计器可以渐进地逼近基础的母体密度。

3. 密度估计的一致性判别边界的准确度决定于所估计基础PDF 的准确度。

Parzen (1962)论述如何构造()f X 的一族估值,()11n Ain i X X f X n ϖλλ=-⎛⎫= ⎪⎝⎭∑ (4)其在连续PDF 的所有点X 上都是一致的。

令X A1,…X Ai ,…X An 为恒等分布的独立随机变量,因为随机变量X 的分布函数()f X =P [x ≤X ] 是绝对连续的。

关于权重函数()y ϖ的Parzen 条件是()sup ||y y ϖ-∞<<+∞<∞ (5)其中,sup 为上确界,()||y dy ϖ+∞-∞<∞⎰ (6)()lim ||0y y y ϖ→∞=(7)和 ()1y dy ϖ+∞-∞=⎰ (8)式(4)中,选择()n λλ=作为n 的函数,且()lim 0n n λ→∞=(9)和 ()lim n n n λ→∞=∞(10)Parzen 证明,在()()2||0n E f X f X -→ 随n →∞ (11)意义上,()f X 估值的均方值一致。

一致性的这一定义,一般认为,当根据较大数据集估计时,预计误差变小,这是特别重要的,因为这意味着,真实分布可以按平滑方式近似。

Murthy (1965,1966)放宽了分布()f X 绝对连续的假定,并指明,类别估计器仍然一致地估计连续分布F (X )所有点的密度,这里密度()f X 也是连续的。

Cacoullos (1966)还扩展了Parzen 的结果,适用于多变量情况。

Cacoullos (1966)中定理指明如何扩展Parzen 的结果,以在这种特殊情况下估计出多变量核为单变量核之积。

在Gaussian 核的特殊情况下,多变量估计可表达为()()()()/22111exp 22T mAi Ai A p p i X X X X f X m σπσ=⎡⎤--=-⎢⎥⎢⎥⎣⎦∑ (12)式中, i = 模式号, m = 训练模式总数,X Ai = 类别A θ的第i 训练模式, σ = “平滑参数”, P = 度量空间的维数。

请注意,()A f X 简单地为中心位于每个训练样本的小的多变量Gaussian 分布之和。

然而, 这个和不限于Gaussian 分布。

实际上,可以近似任意平滑密度函数。

图1表示出独立变量X 为二维情况下,不同的平滑参数σ值对()A f X 的影响。

三种不同的σ值,各种情况使用相同的训练样本,据式(12)绘制出密度。

较小的σ值使得估计的母体密度函数对应于训练样本的位置具有不同的模式。

较大的σ值,如图1(b)所示,在各点间产生较大等级的内插。

这里,靠近训练样本的X值,估计具有大约与给定样本相同的出现概率。

更大的σ值,如图1(c)所示,产生更大等级的内插。

很大的σ值使得估计的密度为Gaussian分布,而与真实基础分布无关。

在“随着σ→0和随着σ→∞极限条件”一节,讨论适当平滑值的选择。

式(12)可以直接与式(1)表述的判定规则一起使用。

为使用这些方程式执行模式识别任务,已编写了计算机程序,并就实际问题取得了良好结果。

然而,为使用式(12)存在2个固有的局限性:(a)检验过程中必须存储和使用整个训练集,和(b)为划分未知点的类别所必需的计算量与训练集的大小成正比。

在这种方法最先提出并应用于模式识别时(Meisel,1972,;Specht,1967a,1967b),这两条因素严重地限制了式(12)直接用于实时的或专门应用。

必须使用近似方法替代之。

后来,计算机存储器变成致密和足够便宜,从而使存储训练集不再成为阻碍,但是,串联计算机的计算时间仍然点是一个制约。

由于具有强大并行计算能力的大型神经网络的出现,限制式(12)直接使用的第二个阻碍即将解除。

4.概率神经网络采用PDF非参数估计进行模式分类的并行模拟网络与用于其他训练算法的前馈神经网络,它们之间有惊人的相似性(Specht,1988)。

图2表示出输入模式X划分成2类的神经网络结构。

图1 不同 值对根据样本估计的PDF的平滑影响图2 模式分类的结构图3 模式单元在图2中,输入单元只是分配单元,把同样的输入值提供给所有模式单元。

每个模式单元(图3作更详细表示)生成输入模式向量X 与权向量W i 的标量积Z i = X ·W i ,然后,在把其激活水平输出到求和单元之前,对Z i 进行非线性运算。

代替反向传播所通用的S 型激活函数,这里采用的非线性运算是()2exp 1/i Z σ⎡⎤-⎣⎦。

假定X 和W 均标准化成单位长度,这相当于使用()()2exp 2T i i W X W X σ⎡⎤---⎢⎥⎢⎥⎣⎦其形式同于式(12)。

这样,标量积是在相互连接中自然完成的,后面是神经元激活函数(指数)。

求和单元简单地把来自模式单元的输入相累加,该模式单元己对应于所选定训练模式的类别。

输出或判定单元为2个输入神经元,如图4所示。

这两个单产生二进制输出。

它们有单一的变量权值k C , k k kk k kB B A k A A B h l nC h l n =-⋅(13)式中,kA n = 来自A k 类的训练模式数,k B n = 来自B k 类的训练模式数。

图4 输出单元请注意,k C 为先验概率比除以样本比并乘以损失比。

任何问题,其均可与它的先验概率成比例地从类别A 和B 获得训练样本的数量,其变量权值/kkk B A C l l =-。

不能根据训练样本的统计量、而只能根据判定的显着性来估计最终的比值。

如果没有偏重判定的特殊理由,可简化为-1(变换器)。

训练网络的方法是:指定模式单元之一的权向量i W ,等于训练集内每个X 模式,然后,模式单元的输出连接到适当的求和单元。

每个训练模式需要一个单独的神经元(模式单元)。

正如图2所示,相同的模式单元按不同求和单元聚集,以在输出向量中提供附加的类别对和附加的二进码信息。

5.另外的激活函数尽管至此所有实验工作都使用式(12),但它不是可以应用的准一一致的估计器。

表1列出了Cacoullos (1966)和Parzen (1962)提出的其他估计器,那里()()11nA p pi f X K y n ωλ==∑ (14)y =(15)和p K 为常数,以使()1pK y dy ω=⎰(16)i i Z X W =⋅ 如前。

当X 和i W 都标准化成单位长度时,i Z 范围变化在-1至+1之间,且激活函数为表1所示形式之一。

请注意,这里,所有估计器都表达成标量积,输入到激活函数,因为都包含 1/y =-非标量积形式。

相关主题