阶段学习报告摘要:现阶段已学习过神经网络中的Hebb学习,感知器,自适应线性神经元和多层前向网络,本文对上述规则进行总结,分析各种规则之间的关系及它们之间的异同,并介绍它们各自的典型应用。
关键字:Hebb学习感知器自适应线性神经元多层前向网络引言神经网络技术[1]中,对神经网络的优化一直是人们研究的热点问题。
1943年心理学家Warren McCulloch和数理逻辑学家Walter Pitts首先提出人工神经元模型;1949年心理学家Donald O.Hebb提出了神经网络联想式学习规则,给出了神经网络的学习方法;1957年美国学者Frank Rosenblatt和其它研究人员提出了一种简单的且具有学习能力的神经网络——感知器(Perceptron),并给出了感知器学习规则;1960年Bernard Widrow和他的研究生Marcian Hoff提出了自适应线性神经元,并给出了Widrow-Hoff学习算法;之后神经网络研究陷入低潮,直至80年代,改进的(多层)感知器网络和相应学习规则的提出才为克服这些局限性开辟了新的途径。
本文结构如下:首先介绍感知器模型,Hebb学习,自适应线性神经元和多层前向网络;其次分析上述规则之间的关系和异同;最后给出它们的典型应用。
第一章 典型的神经网络学习方法1.1 Hebb 学习规则[2]Hebb 规则是最早的神经网络学习规则之一,是一种联想式学习方法,由Donald Hebb 在1949年作为大脑的一种神经元突触调整的可能机制而提出,从那以后Hebb 规则就一直用于人工神经网络的训练。
这一学习规则可归纳为“当某一突触连接两端的神经元同时处于激活状态(或同为抑制)时,该连接的强度应增加,反之应减弱”。
学习信号简单的等于神经元的输出:()T j r f W X = (1-1)权向量的调整公式为()T j j W f W X X η= (1-2)权值的调整量与输入输出的乘积成正比。
经常出现的模式对权向量有最大的影响。
为此,Hebb 学习规则需先设定权饱和值,以防止输入和输出正负始终一致时出现权值无限制增长。
Hebb 学习规则是一种无教师的学习方法,它只根据神经元连接间的激活水平改变权值,因此这种方法又称为相关学习或并联学习。
1.2 感知器学习规则[3]感知器是第一个完整的人工神经网络,它具有联想记忆的功能。
θ∑)(x f 1u 1w x y 2u iu n u 2w i w n w图1 单层感知器神经元模型对于图1给出的感知器神经元,其净输入x 及输出y 为:)(2211x f y u w u w u w u w x n n i i =++++++=θ(1-3) 若令[]n i w w w w 21=w ,则:)(θ+=u w f y (1-4)其中:y 和θ是感知器神经元的输出和阈值;[]n i w w w w 21=w 是输入向量与神经元之间的连接权系数向量;T n u u u ][21 =u 是感知器的输入向量;)(⋅f 是感知器神经元的作用函数,这里取阶跃函数。
即⎩⎨⎧<≥=0001)(x x x f (1-5) 由于单神经元感知器的作用函数是阶跃函数,其输出只能是0或1。
当神经元净输入0<x 时0)(=x f ,当净输入0≥x 时1)(=x f 。
可见,单神经元感知器可以将输入向量分为两类,类别界限为02211=++++++θn n i i u w u w u w u w (1-6)为了便于分析,以二输入单神经元感知器为例说明感知器的分类性能。
此时,类别界限为:02211=++θu w u w (1-7)若将1w 、2w 和θ看作为确定的参数,那么式(2-7)实质上在输入向量空间),(21u u 中定义了一条直线。
该直线一侧的输入向量对应的网络输出为0,而直线另一侧的输入向量对应的网络输出则为1。
由于单神经元感知器的输出只有0或1两种状态,所以只能将输入模式分为两类。
而事实上输入向量模式的种类可能有许多种,为了将它们有效地分开,需要建立由多个神经元组成的感知器,其结构如图2。
1y 2y my 1u 2u n u 1θ2θm θ11w 12w m w 1nmw m w 2m w 1图2 感知器神经网络结构图2所示的神经网络输出为)(θu W y +=f (1-8)其中:T m y y y ][21=y 是感知器网络的输出向量; ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=mn m m n n w w w w w w w w w 212222111211W 是各神经元之间的连接权系数矩阵; T n u u u ][21 =u 是感知器网络的输入向量;T m ][21θθθ =θ是感知器网络的阈值向量;)(⋅f 是感知器神经网络中的作用函数,由式(1-4)确定。
对于多神经元感知器而言,每个神经元都有一个类别界限。
那么第i 个神经元的类别界限为:0=+i i θu w (1-9)其中:][21in i i i w w w =w 是输入向量与第i 个神经元间的连接权值;i θ是第i 个神经元的阈值。
多神经元感知器可以将输入向量分为许多类,每一类由不同的向量表示。
由于输出向量的每个元素可以取0或1两个值,所以一个由m 个神经元构成的感知器网络最多可以区分出m 2种输入模式。
1.3 自适应线性神经元[4]自适应线性元件(Adaptive Linear Element 简称Adaline),由威德罗(Widrow)和霍夫(Hoff)首先提出。
自适应线性元件的主要用途是线性逼近一个函数式而进行模式联想,它与感知器的主要不同之处在于其神经元有一个线性激活函数,这允许输出可以是任意值,而不仅仅只是像感知器中那样只能取0或1,它采用的是W-H 学习法则,也称最小均方差(LMS)规则对权值进行训练。
图3给出了自适应线性神经元和网络的示意图。
图3 (a)自适应线性神经元 (b)自适应线性神经网络W-H 学习法则:采用W-H 学习规则可以用来训练一层网络的权值和偏差使之线性地逼近一个函数式而进行模式联想。
定义一个线性网络的输出误差函数为:22(,)1/2[]1/2[]E W B T A T WP =-=- (1-10)从式中可以看出线性网络具有抛物线型误差函数所形成的误差表面,所只有一个误差最小值,通过W-H 学习规则来计算权值和偏差的变化,并使网络误差的平方和最小。
我们的目的是通过调节权矢量,使E(W,B)达到最小值。
所以在给定E(W,B)后,利用W-H 学习规则修正权矢量和偏差矢量,使E(W,B)从误差空间的某一点开始,沿着E(W,B)的斜面向下滑行。
根据梯度下降法,权矢量的修正值正比于当前位置上E(W,B)的梯度,对于第i 个输出节点有[]ij i i j ijE w t p w ηηα∂=-=-∂ (1-11) 或表示为:ij i j w p ηδ= (1-12)i i b ηδ= (1-13)这里i δ定义为第i 个输出节点的误差。
上式被称为W-H 学习规则,又叫δ规则,或为最小均方算法(LMS )。
W-H 学习规则的权值变化量正比于网络的输出误差及网络的输入矢量,不需要求到处,所以算法简单;又具有收敛速度快和精度高的优点。
其中η为学习速率。
在一般的实际运用中,实践表明,η通常取一接近1的数。
1.4 多层前向网络[5]典型的多层前向网络包括BP(Back Propagation)网络和RBF(Radial Basis Function)网络。
1.4.1BP(Back Propagation)网络BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,它是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。
BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。
它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。
BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer),如图4所示。
同时,图5给出了单个的BP神经元。
图4 BP神经网络结构示意图图5 BP神经元BP神经网络的算法由工作信号的正向传播和误差信号的反向传播两个阶段组成。
正向传播时,工作信号由输入层输入,经隐含层处理后再从输出层输出。
在正向传播阶段,网络的权值和阈值是固定不变的,每一层神经元的状态只影响下一层神经元的状态。
若输出层得不到期望输出,则转向反向传播,在反向传播阶段, 误差信号沿误差函数负梯度方向不断地修正各层的权值和阈值,使得误差信号最终达到输出精度要求, 从而实现输入和输出的非线性映射。
具体算法描述如下:(1) 正向传播阶段1)输入节点的输入:i x ;2)隐含节点的输出:1m i ij i j i y f w x θ=⎛⎫=+ ⎪⎝⎭∑;其中ij w 为连接权值,j θ为节点阈值。
3)输出节点输出:1m l jl i l j O f v y φ=⎛⎫=+ ⎪⎝⎭∑;其中jl v 为连接权值,l φ为节点阈值。
(2)反向传播阶段在反向传播阶段,误差信号由输出端开始逐层向前传播,并沿误差函数负梯度方向对网络权值进行修正。
设()jl v t ∆为输出层权值修正量,则:[][]{}()()()()()1()()()jl l l l l j jl E t v t O t O t O t O t y t v t ∂'∆==--∂ (1-14) 其中[]21()()()2l l E t O t O t '=-为误差函数,()l O t '为期望输出。
因此修正后的输出层权值为:(1)()()jl jl jl v t v t v t η+=-∆,其中η为步长或学习修正率。
同理求得隐含层的权值修正量()ij w t ∆为:[][]{}()()()()()1()()()1()()ij l l l l ij jl j i E t w t O t O t O t O t w t v t y t x t ∂'∆==---∂⎡⎤-⎣⎦ (1-15)修正后的隐含层权值为:(1)()()ij ij ij w t w t w t η+=-∆,η其中为步长或学习修正率。
1.4.2 RBF (Radial Basis Function )网络图6 RBF 网络结构图径向基函数(RBF-Radial Basis Function )神经网络,是在借鉴生物局部调节和交叠接受区域知识的基础上,提出的一种采用局部接受域来执行函数映射的人工神经网络。