当前位置：文档之家› 第9章深度卷积神经网络

第9章深度卷积神经网络

《人工神经网络及应用》
7
• 2. 参数共享
• 通常，图像某一部分的统计特性与邻近部分差异不大。这意味着在这一部分学习得到的特征也能用在另一部分上，所以对于这个图像上的所有位置，都能使用同样的学习特征，即“参数共享”。
• 譬如，以16×16作为样本，并从小块样本中学习到了一些特征，这时就可以把从样本中学习到的特征作为探测器，“共享”到图像的任意地方中去。尤其，可以使用所学习到的特征与原来样本中的大尺寸图像作卷积，从而在这个大尺寸图像上的任意位置获得不同特征的激活值。
(5) 经256个3×3的卷积核作三次卷积+ReLU，尺寸变为56×56×256。
(6) 作 2×2 的 max pooling 池化，尺寸变为 28×28×256。
(7) 经512个3×3的卷积核作三次卷积+ReLU，尺寸变为28×28×512。
9
《人工神经网络及应用》
(8) 作 2×2 的 max pooling 池化，尺寸变为 14×14×512。
9.3.3 ResNet
• ResNet是在2015年提出的，并在ImageNet分类任务比赛上获得第一名，因为它“简单与实用”并存，很多应用都是建立在ResNet50或ResNetl01基础上完成的。随后，检测、分割、识别等领域都纷纷使用了ResNet，甚至AlphaGoZero也使用了ResNet。
4
《人工神经网络及应用》
• 目前，DCNN已经成为图像识别领域的核心算法之一，但在有大量学习数据时表现不稳定。如进行大规模图像分类时，DCNN可用于构建阶层分类器；进行精细分类识别时，可用于提取图像的判别特征以供其他分类器进行学习。
5
《人工神经网络及应用》
9.2 深度卷积神经网络的结构与原理 9.2.1 深度卷积神经网络的结构
9
《人工神经网络及应用》
9.3.2 VGGNet
• 2014 年，牛津大学计算机视觉组（ Visual Geometry Group)和Google Deep Mind公司的研究员一起研发出了一种新的深度卷积神经网络—VGGNet，并使用其取得了ILSVRC 2014 比赛分类项目的第二名，并且同时在大赛中取得了定位项目的第一名。
后，经过激活函数得到的。即
2 =Softmax(
B,G,R conv(i, k))
i
(9-6)
图9-2多层卷积过程
《人工神经网络及应用》
7
9. 3 几种基本的深度卷积神经网络
9.3.1 AlexNet
• AlexNet 是多伦多大学 Hinton 组的 AlexKrizhevsky 在 2012年的ImageNet比赛上使用并提出的一种DCNN结构，其网络结构如图9-3所示
7
《人工神经网络及应用》
• 1. 卷积操作在数学中，卷积的表达式为
S(t) = f (t - )w( )d
式（9 - 1)的离散形式为
S(t) f (t - )w( )
如果参数为矩阵，则可以表示为
S(t) (F* W)(t)
同时，二维卷积的表达式为
S(i, j) (F* W)(m, n) f (m - i, m - n)w(i, j)
图9-3 AlexNet结构图
9
《人工神经网络及应用》
• 在AlexNet中，共有650000个神经元，6000多万个参数，分布在五个卷积层和三个有 1000 类的全连接层及 Softmax 层中。另外，为了加快训练速度，有效利用 GPU，使用了非饱和神经元（Non-saturatingNeurons) 。为了减少过拟合过程，采用了Dropout技术。
(9) 经512个3×3的卷积核作三次卷积+ReLU，尺寸变为14×14×5。
(10) 作2×2 的max pooling 池化，尺寸变为7×7 ×512。
(11) 与两层1×1×4096，一层1×1×1000进行全连接+ReLU(共三层）
(12) 通过Softmax输出1000个预测结果。
9
《人工神经网络及应用》
• 近几年来，随着GPU 技术的高速发展及实现成本的降低，DCNN研究和使用的门槛也大大降低，所以算法也开始变得广为人知，并大量投人应用。这主要因为相对于CPU，GPU具有更高的处理速度，并且在处理重复性的任务方面有显著的优势。
3
《人工神经网络及应用》
• 2012年，Alex Krizhevsky使用DCNN赢得了ImageNet挑战赛，使得人工神经网络在计算机视觉智能领域的应用取得了重大的飞跃。ImageNet是由普林斯顿大学李凯教授于2007年创建的一个图像数据库，含有数百万图像数据，它为计算机提供了充足的训练数据，使之能如幼儿学习的方式进行渐进式学习。
全连接层
图9-1 DCNN的隐含层网络结构
6
《人工神经网络及应用》
• 卷积层是DCNN特有的，其内部包含多个卷积核，每个卷积核都类似于一个前馈神经网络的神经元。它还包含一个激活函数层（Activation Function Layer)，用于增加网络的非线性处理能力，减少了过拟合或梯度消失/ 爆炸的问题。
《人工神经网络及应用》
7
• 3. 多层卷积
• 通常一个卷积核对应于一种特征，因此，为了提取到图片中更丰富的特征，就需要多个卷积核。如需要提取得到64种特征，理论上就需要使用64个卷积核。
• 如图9-2所示，输入图片为3通道，经过2个卷积核的卷
积，得到了两个特征图。每个特征图中的每个像素点，
都是同一个卷积核分别对3通道图片进行卷积，在求和
9
《人工神经网络及应用》
(2) 作最大化池化(Max Pooling)处理，池化单元尺寸为2×2,池化后的尺寸变为112×112×64。
(3) 经128个3×3的卷积核作两次卷积+ReLU，尺寸变为112×112×128。
(4) 作 2×2 的 max pooling 池化，尺寸变为 56×56×128。
• VGGNet探索了卷积神经网络的深度与其性能之间的关系，构筑了16~19层深的卷积神经网络，进一步证明了增加网络的深度能够在一定程度上影响网络最终的性能，使错误率大幅下降，迁移到其他图片数据上的泛化性也非常好，同时拓展性也有所加强。
• VGGNet是由卷积层、全连接层两大部分构成的，可以看成是加深版本的AlexNet，具体结构如图9 - 4所示。
• 一个具有完整功能的DCNN通常由输人层、隐含层、输
出层或分类层组成。输人层一般指用于输入图像的神经
网络层。隐含层包括卷积层（Convolutional Layer)、池
化层Pooling Layer)、全连接层（Fully Connected Layer)。
DC输N入层N的简单隐含卷积层层网络结池化层构如卷积层图9-1所示卷积层。
人工神经网络及应用
主讲人：单位：
1
《人工神经网络及应用》
第九章深度卷积神经网络
1
《人工神经网络及应用》
9.1 概述
• 近几年，深度学习在解决诸如视觉识别（ Visual Recognition) 、语音识别（Speech Recognition)和自然语言处理（Natural Language Processing)等很多问题方面都表现出非常好的性能。深度学习起源于人工神经网络，它是通过组合低层特征形成更加抽象的高层属性类别或特征，以发现数据的分布式特征表示方法，如含多隐层的多层感知器就是一种深度学习结构。在众多的深度学习算法当中，深度卷积神经网络（Deep Convolutional Neural Network，DCNN)应该是研究最广泛、应用最多、最具代表性的算法之一
• 在图像处理中，卷积操作的对象是一组多维矩阵，此时的卷积其实就是对矩阵的不同局部与卷积核矩阵各个位置的元素相乘，然后求和。
• 例如，有一个大小为7×7的输入矩阵，卷积核的大小为 3×3,则卷积操作过程为
7
《人工神经网络及应用》
• 2. 池化操作
• 在DCNN内部，常用的池化操作一般有平均池化和最大池化两种方式，即取对应区域的最大值或者平均值作为池化后的元素值。
• ResNet主要借鉴了VGG19网络，并通过Shortcut机制加入了如图 9-5 所示的残差单元。其改进主要体现在 ResNet上直接使用步长为2的卷积做下采样，并且用平均池化层替换了全连接层。另外，当特征图大小降低一半时，特征图的数量增加一倍，这一操作保证了网络的复杂度，也是ResNet设计中应遵循的一个重要原则。
9
《人工神经网络及应用》
卷积层+Relu
M
池化层
图943;Relu
S
Softmax层
• 以VGG16为例，输入一幅图片，具体处理步骤如下：
(1) 输入224×224×3的图片，经64个3×3的卷积
核做两次卷积和 ReLU ，卷积后的尺寸变为
224×224×64。
• 训练过程中使用了随机梯度下降算法（ Stochastic Gradient Descent，SGD），Min-batch 大小为128,可将 120 万张图像的训练集循环 90 次，并在两个 NVIDIA GTX 580 3GB GPU上运行六天时间。
• 另外，由于DCNN是一种前馈神经网络，它的神经元可以表征覆盖范围内数据的响应，因此在处理大型图像集时有着非常出色的表现。它通常由多个卷积层和顶端的全连层组成，同时也包括关联权重和池化层。这一结构使得卷积神经网络能够利用输人数据的二维结构。这一模型也可以使用反向传播算法进行训练。与其他深度或前馈神经网络相比较，DCNN需要的参数更少，所以是一种非常具有吸引力的深度学习结构。

e商务文档

第9章深度卷积神经网络

相关文档推荐：

e商务文档

第9章 深度卷积神经网络

相关文档推荐：

第9章深度卷积神经网络