概率神经网络概述概率神经网络(Probabilistic Neural Network ,PNN )是由D. F. Specht 在1990年提出的。
主要思想是贝叶斯决策规则,即错误分类的期望风险最小,在多维输入空间内分离决策空间。
它是一种基于统计原理的人工神经网络,它是以Parazen 窗口函数为激活函数的一种前馈网络模型。
PNN 吸收了径向基神经网络与经典的概率密度估计原理的优点,与传统的前馈神经网络相比,在模式分类方面尤其具有较为显著的优势。
1.1 概率神经网络分类器的理论推导 由贝叶斯决策理论:ww w ijix then i j x p x p if ∈≠∀>→→→ , )|()|((1-1)其中)|()()|(w w w iiix p p x p →→=。
一般情况下,类的概率密度函数)|(→x p w i 是未知的,用高斯核的Parzen 估计如下:)2exp(11)|(22122σσπ→→-∑-==→x x Nw ikN ik lliix p(1-2)其中,→x ik 是属于第w i 类的第k 个训练样本,l 是样本向量的维数,σ是平滑参数,N i 是第w i 类的训练样本总数。
去掉共有的元素,判别函数可简化为:∑-=→→→-=Nikik iiix x Nw g p x 122)2exp()()(σ(1-3)1.2 概率神经元网络的结构模型PNN 的结构以及各层的输入输出关系量如图1所示,共由四层组成,当进行并行处理时,能有效地进行上式的计算。
图1 概率神经网络结构如图1所示,PNN 网络由四部分组成:输入层、样本层、求和层和竞争层。
PNN 的工作过程:首先将输入向量→x 输入到输入层,在输入层中,网络计算输入向量与训练样本向量之间的差值|-|→→x ikx 的大小代表着两个向量之间的距离,所得的向量由输入层输出,该向量反映了向量间的接近程度;接着,输入层的输出向量→→xikx -送入到样本层中,样本层节点的数目等于训练样本数目的总和,∑===M i i iNN 1,其中M 是类的总数。
样本层的主要工作是:先判断哪些类别输入向量有关,再将相关度高的类别集中起来,样本层的输出值就代表相识度;然后,将样本层的输出值送入到求和层,求和层的结点个数是M ,每个结点对应一个类,通过求和层的竞争传递函数进行判决;最后,判决的结果由竞争层输出,输出结果中只有一个1,其余结果都是0,概率值最大的那一类输出结果为1。
2.基本学习算法第一步:首先必须对输入矩阵进行归一化处理,这样可以减小误差,避免较小的值呗较大的值“吃掉”。
设原始输入矩阵为:⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=X XXXX X X XXmnm m nn212222111211X(2-1)从样本的矩阵如式(2-1)中可以看出,该矩阵的学习样本由m 个,每一个样本的特征属性有n 个。
在求归一化因子之前,必须先计算B T矩阵:⎥⎥⎦⎤⎢⎢⎣⎡=∑∑∑===nk nk n k Tx x x B mkkk 12121211121然后计算:[]⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎣⎡=•=⨯⨯⨯⨯C CC C C C C CC MxM xM xMxMxMxM xM xM xXB C mnm m n n mmnmm mm nnnm nm nm21222211121121222222211111211111111 (2-2) 式中,∑∑∑======nk mn k n k x M x M x M mkk k 12122121,,,21则归一化后的学习矩阵为C 。
在式(2-2)中,符号”“•表示矩阵在做乘法运算时,相应元素之间的乘积。
第二步:将归一化好的m 个样本送入网络样本层中。
因为是有监督的学习算法,所以很容易就知道每个样本属于哪种类型。
假设样本有m 个,那么一共可以分为c 类,并且各类样本的数目相同,设为k ,于是m=k*c 。
第三步:模式距离的计算,该距离是指样本矩阵与学习矩阵中相应元素之间的距离。
假设将由P 个n 维向量组成的矩阵称为待识别样本矩阵,则经归一化后,需要待识别的输入样本矩阵为:⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=d dd d dd d d d pnp p n n D 212222111211(2-3)计算欧氏距离:就是需要是别的样本向量,样本层中各个网络节点的中心向量,这两个向量相应量之间的距离:⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=∑-∑-∑-∑-∑-∑-∑-∑-∑-=========E E EE E E E E Ec d c d c d c d c d c d c d c d c d pmp p m mnk nk n k nk nk n k nk nk n k mkpk kpk k pk mkk kk kk mk k kk kk E212222111211121212121212121212212222212111 (2-4)第四步:样本层径向基函数的神经元被激活。
学习样本与待识别样本被归一化后,通常取标准差1.0=σ的高斯型函数。
激活后得到出事概率矩阵:⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=---------P P P P P P P P P e ee e e e e e e pmp p m mE E E E E E E E E pm p p mmP212222111211222222222222212222222121212211σσσσσσσσσ(2-5)第五步:假设样本有m 个,那么一共可以分为c 类,并且各类样本的数目相同,设为k ,则可以在网络的求和层求得各个样本属于各类的初始概率和:⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=∑∑∑∑∑∑∑∑∑+-=+==+-=+==+-=+==S S S SS S S S S P PPP PP P PP pcp p ccmk m l plkk l plk l plm k m l lk k l lk l lmk m l lkk l lkl lS212222111211121112212121121111 (2-6)上式中,S ij 代表的意思是:将要被识别的样本中,第i 个样本属于第j 类的初始概率和。
第六步:计算概率ijprob,即第i 个样本属于第j 类的概率。
∑==c l ilijijSSprob 1(2-7)3.特点概率神经网络具有如下特性:(1) 训练容易,收敛速度快,从而非常适用于实时处理;(2) 可以完成任意的非线性变换,所形成的判决曲面与贝叶斯最优准则下的曲面相接近;(3) 具有很强的容错性;(4) 模式层的传递函数可以选用各种用来估计概率密度的核函数,并且,各分类结果对核函数的形式不敏感;(5) 各层神经元的数目比较固定,因而易于硬件实现。
4.不足之处概率神经网络的不足主要集中在其结构的复杂性和网络参数的选择上。
PNN 网络进行模式分类的机理是基于贝叶斯最小风险决策,为了获得贝叶斯准则下的最优解,必须保证有足够多的训练样本。
PNN的拓扑结构和训练样本数目成直接比例关系,每个训练样本决定一个隐含层神经元,所以当训练样本数量巨大时,将导致规模庞大的神经网络结构,阻碍了PNN网络的推广和应用。
而且,PNN的网络参数(比如连接权重,Parzen窗函数的平滑因子等),也很大程度的决定着网络的性能。
此外PNN对训练样本的代表性要求高;需要的存储空间更大。
5.应用领域概率神经网络主要应用于分类个模式识别领域,其中分类方面应用最为广泛,这种网络已较广泛地应用于非线性滤波、模式分类、联想记忆和概率密度估计当中。