1342009,45(31)Compu£erEngineeringandApplications计算机工程与应用
自组织特征映射神经网络的改进及应用研究
梁斌梅UANGBin—mei
广西大学数学与信息科学学院,南宁530004CollegeofMathematicsandInformationScience,GuangxiUniversity,Nanning530004,ChinaE-mail:liangbinmei@sina.corn
LIANGBin-mei.StudyOHimprovementandapplicationofserf-organizingmapneuralnetwork.ComputerEngineeringandApplications,2009,45(31):134-137.
Abstmct:InordertoincreasethelearningspeedandenhancetheclassificationaccuracyofSOMnetwork。modifyexistingmethodsofdeterminingtheinitialconnectionweightsandthenumbersofcompetitivelayernodes.Clusteringmethodisproposedtodeterminetheinitialconnectionweights.Anewmetllodisproposedtodeterminethenumbersofcompetitivelayernodesbyaddinguptheclusternumbersandthenumbersoftheneighborhoodneurons.AndthentheimprovedclassificationalgorithmbasedSOMnetworkispresented.ApplytheimprovedSOMnetworktoclassifystored—grainpests,andleave—one—outmethodtotrainandtestthenetwork.TheexperimentalmsdtsshowthatthemodifiedSOMnetworkhasbeenmarkedlyimprovedinlearningspeedandclassificationaccuracy,whichprovethevalidityoftheproposedmethods.Keywords:self-organizingmap;neuralnetwork;classification;clustering;stored—grainpests
摘要:为了提高自组织特征映射(SOM)神经网络学习速度及分类精度,对初始连接权值及竞争层神经元数的确定方法进行改进。提出用聚类方法确定初始权值的新方法,还提出了采用聚类数与邻域之和确定竞争层神经元数的方法,并给出了改进后的SOM分类算法。将改进的s0M网络用于储粮害虫分类,采用留一方法进行分类验证实验。仿真结果表明,改进后的SOM网络在学习速度和分类精度方面都有明显提高,证明了该方法的有效性。关键词:自组织映射;神经网络;分类;聚类;储粮害虫DOI:10.3778/j.issn.1002—8331.2009.31.040文章编号:1002—8331(2009)31—0134—04文献标识码:A中图分类号:TPl83
l引言自组织特征映射(SOM)神经网络是由芬兰学者TeuvoKohonen于1981年提出的,作为一种无教师聚类方法,它能将任意维输入模式在输出层映射成一维或二维离散图形,并保持其拓扑结构不变In,实现对输入模式自动聚类。SOM网络已被用来解决样本分类、特征处理、矢量量化、泛函逼近和插值等问题12-:31。SOM网络在分类学习中存在一些不足之处,主要体现在学习时间长M及分类精度不高[61。该文主要探讨尚少学者研究的SOM网络竞争层神经元数目、输入层与竞争层的初始连接权值的确定等问题。提出通过聚类的方法确定竞争层神经元数及初始权值的方法,并通过对储粮害虫分类的仿真实验来验证该文方法的正确性和有效性。
2SOM网络分类模理SOM网络由输入层与输出层(竞争层)组成,其结构如图1所示。输入层与竞争层之间为全连接,竞争层各神经元之间为侧抑制连接。网络中存在两种不同连接权值,一种是神经元对外部输入反应的连接权值,另一种是神经元之间的连接权值,它控制着神经元之间交互作用的大水”。SOM网络的基本工作原理是,网络竞争层的各神经元通过竞争来获取对输入模式的响应,将与获胜神经元有关的各连接权值向着更有利于其竞争的方向调整,最后仅有—个神经元成为竞争胜利者。处于竞争层拓扑空间中不同区域的神经元有不同分工,当一个神经网络接受外界输入模式时,将会分为不同的反应区域,各区域对输入模式具有不同的响应特性,最邻近的两个神经元互相激励而兴奋,较远的相互抑制,更远的则是弱激励,分布形状像墨西哥草帽,如图2所示171。
侧反馈‘强度/\
Vo\/砷向\_/叮直图l自组织特征映射网络图2墨西哥帽彤雨数
基金项目:广西教育厅科研项目(No.12006]026)。作者简介:梁斌梅(1973一),女,讲师,博士研究生,研究兴趣:神经网络、数据挖掘。收稿日期:2009—07—23
修同日期:2009-09—08
万方数据梁斌梅:自组织特征映射神经网络的改进及应用研究
SOM网络的竞争层采用邻域来避免初始权向量与输入向量分布不一致造成的匹配不均匀现象。邻域Ⅳc(t)是指在第t次迭代时,以获胜神经元C为中心,包含若干神经元的区域范围。这个区域一般是均匀对称的,通常是圆形、正方形或六角形区域【6】,图3是一个获胜神经元c的正方形邻域,其中,tO<tl<t2。在训练的初期,对于—个输入向量,允许多个神经元同时处于激发状态。学习过程不仅调整获胜神经元对应的权向量,对其邻域范围内的权向量也作适当调整。而随着训练的不断进行,邻域范围逐渐减小,最后达到对—个输入向量只有一个神经元激发。
OoOOOOO0娜百O西Qo;o万6百蛭O:010●.0IOi0010:O0070:oolo000010O。O芍6-6万oNfOo)Nc(t1)Nc(t2)
图3获胜神经元c及其邻域
3聚类原理聚类分析依照物以类聚原理将研究对象分组,提供样本分布的结构信息,是一种重要的数据挖掘方法,在自然科学和社会科学中得到广泛应用[Sl。基于层次的聚类方法将数据对象在不同阶段组成不同粒度的簇,并在簇的分裂和合并过程中不断改善聚类的效果,以达到逐步求精的目的。根据SOM网络建模的特点,分别提出基于层次聚类确定竞争层神经元数目及初始连接权值的方法。层次聚类分为凝聚层次聚类与分裂层次聚类。凝聚层次聚类采用自底向上的方式形成层次分解,这种策略首先将每个对象作为其簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在—个簇中,或者某个终止条件满足为止。在凝聚过程中,可根据最小距离、最大距离、平均值距离和平均距离计算簇之问相似度目。设Ci和G是聚结过程中同一层次上的两个类,/7,i和n,分别是G和c『两个类中的对象数目,∥为Ci中的任意—个对象,Po’为C!『中的任意—个对象。,:为ci中对象的平均值。f为cJ中对象的平均值,公式(1)一(4)用于计算两个簇之间的差异度。(1)平均值距离k(G,q)划旺Z)(1)(2)平均距离k(ci,G)=—L∑Zd(p(u,p们)(2),o册矿EcpPE6(3)最大距离d。(c;,q)-maxd(p‘”,p∞)(3)P“。Eq,,训Eq(4)最小距离dl(Ci,G)=raind(∥,pq))(4)pt')EE.,”EC采用单链接算法实现凝聚层次聚类。其基本思想是㈣:聚类开始时,将每个对象自为一簇,然后这些簇根据最小距离准则(公式(4))逐步合并。即,如果簇c。中的—个对象与簇c2中的—个对象之间的距离是所有属于不同簇的对象问欧几里德距离中最小的,则合并c2和c2。ca+簇可以用簇中所有对象代表,簇问相似度用属于不同簇中最近的数据点对之间的相似度来度量。聚类合并过程反复进行,直到达到终止聚簇条件。
4SOM网络分类性能的改进SOM网络在实际应用中存在学习速度慢、分类精度不高、学习过程容易发生振荡等问题[11l。分析SOM网络学习过程可知,其影响因素主要是竞争层拓扑结构、邻域大小、初始权值及学习率等。学术界对学习率的改进方面做了较多研究,但是对竞争层拓扑结构及初始权值的研究还比较少。该文主要从竞争层神经元数、初始权值的确定等两个方面进行研究分析,以期改善SOM网络分类性能。4.1竞争层神经元数的确定竞争层结构越庞大,神经元数目越多,需计算调整的权值越多,网络的训练时间就越长。因此,寻求—个最小的竞争层结构可以减少网络训练时间,从而加快学习速度。假设输入层有rL个神经元,竞争层有m个神经元,则共产生nxm个连接权值,多增加—个竞争层神经元就要多训练n个连接权值,可见,减少竞争层神经元数对减少训练时间是很有意义的。传统的SOM网络竞争层神经元数的确定需要通过大量试验来确定旧,盲目且缺乏理论指导,效果一般不好,难以确定最佳的竞争层神经元数。从SOM网络工作原理可知,竞争层神经元是输入样本特征的—个映射,如果输入数据有||}个特征,则输出层至少需要^个神经元代表这矗个特征。每组输入样本进入网络,都需要—个竞争层神经元赢得此输入样本实例,具有同—特征的输入样本数据分在同—个类别中,则竞争层神经元数至少等于训练数据中的类别数,这是其一。其二,为了避免竞争层初始权向量与输入向量分布不一致造成一些权向量获得过多匹配,而另外一些权向量获得太少的匹配,采用邻域的方法解决。所以,竞争层神经元数应该为样本数据的类别数与邻域之和。该文给出竞争层神经元数的确定方法,可按公式(5)计算。M=C+O.7So+a(5)其中,C为输入样本的类别数(聚类数),Ⅳ0为初始邻域,取为输入样本的类别数,a为修正系数,O<a<C。4.2初始权值的设定SOM网络权向量的初始化是非常重要的,它的取值不仅会影响到嘲络训练的速度,而且还会直接地影响到网络的分类精度。传统的初始权值的确定方法一般是取随机的小数m13】。初始权向量与输入向量越接近,权值调整范围越小,网络学习越快,权值振荡范围越小。在理想情况下,权向量的初始值可按照输入样本的分布来确定,而实际上,很难弄清楚输入样本的分布情况。为了加快网络训练速度,将初始权值设置为各个类的类中心。下面给出相关的定义和公式。设有一个SOM网络,输入层结点数为/1,,竞争层神经元数为m,第z个输入样本向量为∽,孙…,%…,算。l,类别数为{c。,C:,…,c,,…,C,},t为最大类别取值,则第P个类的第i个分量的座标G,,值为:,二%=丁1二互¨,iE{1,2,…,nl(6)
其中,_|}为第P个聚类中的样本个数,i为输入层结点序号。则
初始连接权值可按公式(7)确定。
万方数据1362009,45(31)ComputerEngineeringandApplications计算机工程与应用
埘产q—一占,i∈{l,2,…,nl(7)其中J为竞争层结点序号√E(1。2,…,m}。占为均衡参数,可取占∈【-1,1】。4.3改进的SOM网络学习算法改进后的SOM网络学习过程为:(1)初始化各连接权值。对所有从输入神经元到输出神经元的连接权值按4.2的方法确定。时间计数t=O。(2)对网络输入模式妇(%茗:,…,‰),z表示第Z个样本,n为输入层结点数。(3)按公式(8)计算输入模式一与全部输出结点所连接权向量形的距离。厂丁—————一dl=\/∑(Z一既)2JEfl,2,….m}(8)(4)计算具有最小距离的神经元c。使得对于任意的,,都有:吐=rain(吐)(9),EfI.2.·”.m}(5)确定邻域札(层)。邻域的值可按公式(10)确定。0.7肌,E>70%(Ko--GOAL)们)=P1黑Ewo-GO搿A?(10)”。l,E>10%(L)10.E‘IO%(Eo-GOAL)其中,^l(£)表示获胜神经元.,的邻域,%为初始邻域,取为样本数据的类别数。E为当每组输入样本通过网络后,赢得此样本的竞争层神经元权值与该组输入样本的绝对值距离之和。昂为初始误差,GOAL为目标误差。(6)分别调整竞争层获胜神经元C及其几何邻域肚(f)内的结点所连接的权值:AwF印e£)(《飞),iE{1,2,…,n)(11)形,(t+l净驴F(£)+矿g(12)其中,’l(t)为学习率,获胜神经元c及其几何邻域的学习率取值不同,公式(7)为获胜神经元c的学习率计算。,7(I)=铂(1一告),0<,:/o<1(13)
式中,‰为获胜神经元初始学习率,t为迭代次数,r为总的学习次数。公式(14)为获胜神经元的邻域神经元学习率的计算。,7’(t)='70’(1一告)。o<伽’<1且伽’<伽(14)
其中,伽’为邻域初始学习率,t为迭代次数,r为总的学习次数。(7)按公式(15)计算网络输出:D。积rain(d;))(15)其中以·)为。一l函数或非线性函数。(8)t=t+l,如果达至tliJII练终止条件,即小于训练目标误差、或分类不再改变、或达到最大训练次数,贝gOtl练结束,否则转(2)执行。
5仿真实验及分析仿真实验借助nmtlab平台,创建基于SOM网络的储粮害虫分类模型,实验在一台主频1.6GHz、内存768M、操纵系统为WindowsXP的计算机上完成。5.1样本数据采集与预处理利用先进的计算机技术对储粮害虫进行自动分类,是科研工作者们亟待解决的重要课题之一1143。该文采集文献[1511构1储一粮害虫数据作为样本数据集。针对七种主要害虫:米象类、谷蠹、赤拟谷稻、杂拟谷稻、长头谷稻、锯谷稻、扁谷稻的二值化图像,提取了面积、周长、复杂度三个形态特征作为储粮害虫的原始特征。即,选择面积、周长和复杂度作为网络输入因子,害虫的种类作为输出因子。样本数据集共含21个样本,采用留一方法进行分类验证实验。留一方法为^折交叉确认的一种特殊情况,即每次迭代计算时只留—个样本作为测试集.其余20个样本均为训练集。采用留一方法的好处是能充分利用少量样本建立分类模型,模型的概化能力更好,模型的准确率评估更优。5.2层次聚类采用maflab的linkage函数实现层次聚类的单链接算法。以文献[151中的21项数据作为输入样本,得出图4所示的层次聚类树。
132l14l17ll121925631020491871615S样本序号图4生成的层次聚类树取聚类数为7,则最终聚类结果为:“1,11,12,17,19);(2,5,6);(3,10,20);{4,9,18};{8l;{7,15,16};{13,14,21})各数字对应样本序号。则7个类的类中心各分量的值如表1所示。
表1聚类后各类中心类中心类序号——
瓤却
5.3仿真实验及结果根据公式(5)。n取为3,可确定竞争层神经元数为15,按公式(6)及公式(7)确定输入层与竞争层间连接权值。对SOM网络初始化:最大迭代次数取为5000次,伽取为0.7,伽’取为0.3,GOAL取为O.0l,邻域的初始值Ⅳ0为7。可得出改进后的SOM储粮害虫分类模型,其性能如表2所示。为了验证改进后的SOM网络性能,采用改进前的SOM网络、BP网络及classify函数等三种分类方法进行实验,并对比实验结果。BP网络是一种应用广泛的神经网络分类方法,采用快速
韫蟹懈餐
万方数据