当前位置:文档之家› 一种改进的深度神经网络在小图像分类中的应用研究

一种改进的深度神经网络在小图像分类中的应用研究


收稿日期: 2013 - 06 - 03 。吕刚, 讲师, 主研领域: 模式识别, 机器视 觉, 神经网络。郝平, 教授。盛建荣, 讲师。
第4 期
吕刚等: 一种改进的深度神经网络在小图像分类中的应用研究
183
GMMHMM 提高了 5. 8% 到 9. 25[6] 。
推断 ” 和神经网络 通过式( 4 ) 和式( 5 ) , 可以把 RBM 中的 ” 中的前向传播等同起来 。不断重复式( 4 ) 、式( 5 ) , 就可以得到 状态无关, 这是一个马尔科夫过程 模型的所有状态, 因为下一个状态只由当前状态决定, 和过去的 [10 ] 。并且同一层中各单元是 条件独立的, 可以用 Gibbs 采样, 来计算给定 h 时, 各个 v i 的值, 反之亦然。只要 Gibbs 采样的过程足够长, 模型就能达到热平 衡状态( 虽然继续 Gibbs 采样隐含层和可见层单元的状态会发 h ) 出现的 生改变, 但基于 Gibbs 采用计算的模型中某个样本( v, 可能3 卷积神经网络可以看作一个结构化的 MLP 网络, 种结构性的方法来实现位移 、 缩放和扭曲不变性。 这三种方法 分别是局部感受野、 共享权值和空间域或时间域上的次采样 。 局域感受野是每一网络层的神经元只与上一层的一个小邻域内 的神经单元连接, 通过局域感受野, 神经元可以提取初级的视觉 特征, 如方向线段、 端点、 角点等; 权值共享是同一个特征图中的 神经元共用相同的权值, 使得卷积神经网络具有更少的参数, 局 部感受野和权值共享使得卷积神经网络具有平移不变性, 每个 特征图提取一个特征, 对特征出现的位置不敏感; 次采样可以减 [7 ] 小特征图的分辨率, 从而减小对位移、 缩放和扭曲的敏感度 。 CNN 的训练和 MLP 是一样的。
对于单元 v i 和 h j 之间的权值更新, 我们有: - λ ( θ ) vi hj 〉 = 〈v i h j 〉 data - 〈 model θ ( 7)
, 〈v i h j 〉 “开 ” 状态的频 其中 data 是训练集中单元 v i 和 h j 同时处于 , 〈v i h j 〉 率, 这是一个期望值。 类似的 model 是根据模型产生的样 本集 ( 由模型定义的分布确定) 计算的单元 v i 和 h j 同时处 于 “开” .] 状态的频率。计算[ 和单元的数量成指数 model 非常耗时, 倍增长。 Freund 和 Haussler 首先发现在 RBM 中产生一个可见 层向量的概率和通过单个隐含层单元独立产生可见层向量的概 率的乘机 成 正 比 关 系, 因 此 可 以 把 RBM 看 成 一 个 PoE 模 型 ( Products of Experts) ,通过对比发散 CD( contrastive divergence)
DBN 网络由多层 RBM 叠加组成, 第 i 层 RBM 的隐含层的 输出, 作为第 i + 1 层 RBM 的输入; 第 1 层 RBM 输入作为整个 DBN 网络的输入, 最后一层 RBM 的输出作为网络的输出 。 在 做分类时, 可以把 DBN 看成是一个 MLP, 在最顶层加一个逻辑 CNN 不同的是 DBN 网络是一种概率生成式 回归层。 和 MLP、 模型, 传统的辨别式模型只能做 P( Label | Observation) 式推断, 而 生成式模型还可以做 P( Observation | Label) 式的推断。
[1 ]
。 但神经科学的研究成果, 使
我们有理由相信人类的视觉系统包括由简单到复杂的多个层; 在特定的情况下, 也可以在理论上证明用 k 层可以表示的功能, 1 层来表示, 如果用 k所需要的计算单位成指数级别增加
[2 ]
, 这
些都是研究人员希望训练更多层网络的动机 。以一个网络构架 中从任意输入都任意输出的最大路径表示该网络的深度, 则逻 MLP、 SVM 的深度为 2 , 辑回归网络的深度为 1 , 一般认为这些学 习模型的构架都是浅架构; 而把深度大于 2 的网络构架, 称之为 深度架构。对深度架构的训练算法, 称为深度学习算法。
文献标识码
DOI: 10. 3969 / j. issn. 1000386x. 2014. 04. 046
ON APPLYING AN IMPROVED DEEP NEURAL NETWORKS IN TINY IMAGE CLASSIFICATION
Lü Gang1
1 2
Hao Ping2
Sheng Jianrong1
2. 2
RBM 的训练
先定义一个所谓的自由能量函数, 便于后面的分析: F( v) = - log(
∑e
h
-E( v, h)

定义 RBM 的对数似然函数为: λ( θ) = - F( v) - log(
∑e
v
-F( v)

( 6)
2
深度信念网络
RBM 是一个概率生成模型, 对数似然函数的导数的一般形 式可以写成: - E λ ( θ ) E -〈 〉 =〈 〉 θ model θ θ data

10 数据库进行小图像分类识别实验; 根据实验结果, 10 库上错误率为 信念网络对模型 MNIST 和 Cifar改进的深度信念网络在 Cifar30. 16% , 比卷积神经网络低了 9% , 比传统的深度信念网络低了 40% ; 在 MNIST 上的识别错误率为 1. 21% , 比传统的深度信念网络 分别降低了 16% , 略高于卷积神经网络 。试验结果表明改进的 DBN 网络在小图像分类应用中是有效的 。 关键词 中图分类号 深度学习 TP391. 43 卷积神经网络 信念网络 A 字符识别 图像分类
浙江 金华 321000 ) 浙江 杭州 310032 )

基于卷积神经网络和深度信念网络各自的优点, 通过把卷积神经网络的局部感受野引入到深度信念网络的单层中, 把深 度信念网络的单层分成多个子 RBM, 提出一种改进的深度信念网络 。分别用 BP 网络、 卷积神经网络、 深度信念网络和改进的深度
第 31 卷第 4 期 2014 年 4 月
计算机应用与软件 Computer Applications and Software
Vol. 31 No. 4 Apr. 2014
一种改进的深度神经网络在小图像分类中的应用研究
吕 刚
1 2
1
郝 平
2
盛建荣
1
( 金华广播电视大学理工学院 ( 浙江工业大学信息工程学院
采 典型的 MLP ( 多层神经网络) 一般包括 1 - 2 个隐含层, 用 BP 算法进行训练。有研究表明增加 MLP 的隐含层并不能提 高网络的性能, 甚至往往会降低网络性能, 另外 BP 算法还容易 陷入局部最小值。对于 MLP 的性能在网络层数过多时下降的 现象, 一种合理的解释是网络构架上的原因导致基于梯度的优 化过程, 不能传递到更低的层
( College of Technology,Jinhua Radio and Television University,Jinhua 321000 ,Zhejiang,China)
( College of Information Engineering,Zhejiang Universtity of Technology,Hangzhou 310032 ,Zhejiang,China)
0


卷积神经网络( 下称 CNN ) 是第一个真正获得成功的深度 2 个采样 架构, 一个典型的 CNN 网络, 如 LeNet5 , 有 2 个卷积层, 层和 2 个全连接层 。深度信念网络( 下称 DBN ) 则是近几年 提出的一种深度架构人工神经网络, 构成 DBN 的基本模块是 RBM( 受限波尔兹曼机) , RBM 是一种概率生成模型, 在 RBM 训 有助于训练陷入局部最小值 。 文献 练时采用了模拟退火算法, [ 1, 4, 5] 中描述了一种基于层的贪心学习算法, 通过自底向上 的逐层预训练( 每层都是一个 RBM ) , 然后再通过 BP 算法对所 有层进行微调, 能获得比 MLP 更好的性能。 在没有对样本做任 DBN 在 MNIST 数据库上的误识率为 1. 25% 何预处理的情况下, SVM 是 1. 4% 。 另外, 的, 相同条件下 BP 网络是 1. 51% , 在人 脸检测、 语音识别和检测、 一般物体识别、 自然语言处理以及机 [3 ] 器人 领 域, 深度学习都有成功的应用 , 微 软 研 究 院 用 CDDBNHMM 模型大幅提高了语音识别的准确率, 比原来的 CD[3 ]
-E( v, h)
1 时的训练效果也是非常好的, 相应的梯度近似表示为: ( ) λ θ - vi hj 〉 ≈〈v i h j 〉 data - 〈 1 θ
( 8)
2. 3
DBN 的训练
Z
( 2)
[9 ] 算法来训练一个 RBM 。模型达到平衡态非常耗时, 实际应用 中用 k 步 Gibbs 采样的样本来代替平衡态的样本, 实验表明 k =
2. 1
受限玻尔兹曼机
RBM( 受限玻尔兹曼机)
[8 ]
是一种能量模型, 从 Hopfield 网
络演变而来, 一个 RBM 包括一个隐含层和一个可见层 。隐含层 和可见层单元间有双向连接, 同一层内部各单元之间无相互 连接。 在隐含层和可见层各单元的状态确定的情况下 ( 这里假 1 两种状态) , 设单个单元只有 0 、 一个 RBM 的能量函数表示 如下: E( v, h) = - b T v - c T h - v T Wh ( 1) W 是隐含层和可见层单元间的连接权值矩阵, b 是可见层 这里, c 是隐含层的偏置。 v 表示隐含层, h 表示可见层。 某 的偏置, h) 出现的可能性表示为: 个特定状态( v, P( v, h) = Z = 其中, e
Abstract
Based on the advantages of both convolutional neural networks ( CNN) and deep belief networks ( DBN) each,by introducing
相关主题