Equation Chapter 1 Section 1 令狐采学 SHANGHAI JIAO TONG UNIVERSITY 论文题目:基于卷积神经网络的自然图像分类技术研究 姓名: 高小宁 专业:控制科学与工程基于卷积神经网络的自然图像分类技术研究 摘要:卷积神经网络已在图像分类领域取得了很好的效果,但其网络结构及参数的选择对图像分类的效果和效率有较年夜的影响。为改良卷积网络的图像分类性能,本文对卷积神经网络模型进行了详细的理论阐发,并通过年夜量的比较实验,得出了影响卷积网络性能的因素。结合理论阐发及比较实验,本文设计了一个卷积层数为8层的深度卷积网络,并结合Batch Normalization、dropout等办法,在CIFAR10数据集上取得了88.1%的分类精度,有效地提高了卷积神经网络的分类效果。 关键词:卷积神经网络,图像分类,Batch Normalization,Dropout Research on Natural Image Classification Based on Convolution Neural Network Abstract: Convolution neural network has achieved very good results in image classification, but its network structure and the choice of parameters have a greater impact on image classification efficiency and efficiency. In order to improve the image classification performance of the convolution network, a convolutional neural network model is analyzed in detail, and a large number of contrastive experiments are conducted to get the factors that influence the performance of the convolution network. Combining the theory analysis and contrast experiment, a convolution layer depth convolution network with 8 layers is designed. Combined with Batch Normalization and dropout, 88.1% classification accuracy is achieved on CIFAR10 dataset. Which improves the classification effect of convolution neural network. Key Words:Convolution neural network(CNN), image classification, Batch Normalization,Dropout
目录 基于卷积神经网络的自然图像分类技术研究- 1 - 1 引言- 2 - 2 卷积神经网络的模型阐发- 3 - 2.1网络基本拓扑结构- 3 - 2.2卷积和池化- 4 - 2.3激活函数- 5 - 2.4 Softmax分类器与价格函数- 6 - 2.5学习算法- 7 - 2.6 Dropout- 9 - 2.7 Batch Normalization- 10 - 3 模型设计与实验阐发- 10 - 3.1 CIFAR10数据集- 10 - 3.2 模型设计- 11 - 令狐采学创作 令狐采学创作 3.3 实验结果与阐发- 14 - 4 结论- 21 - 参考文献- 21 -
1 引言
1986 年, Rumelhart 等提出人工神经网络的反向传播算法 (Back propagation, BP), 掀起了神经网络在机器学习中的研究热潮。可是由于BP神经网络存在容易产生过拟合、训练时间长的缺陷, 90年代兴起的基于统计学习理论的支持向量机具有很强的小样本学习能力。学习效果也优于BP神经网络,招致了神经网络的研究再次跌入低估。 年, Hinton 等人在 Science 上提出了深度学习. 这篇文章的两个主要观点是: 1) 多隐层的人工神经网络具有优异的特征学习能力, 学习到的数据更能反应数据的实质特征,有利于可视化或分类;2) 深度神经网络在训练上的难度, 可以通过逐层无监督训练有效克服。理论研究标明为了学习到可暗示高层笼统特征的庞杂函数, 需要设计深度网络。深度网络由多层非线性算子构成, 典范设计是具有多层隐节点的神经网络。可是随着网络层数的加年夜, 如何搜索深度结构的参数空间成为具有挑战性的任务。近年来, 深度学习取告捷利的主要原因有: 1) 在训练数据上, 年夜规模训练数据的呈现 (如ImageNet),为深度学习提供了好的训练资源; 2) 计算机硬件的飞速成长 (特别是 GPU 的呈现) 使得训练年夜规模神经网络成为可能。 卷积神经网络 (Convolutional neural networks, CNN) 是一种带有卷积结构的神经网络, 卷积结构采取权值共享的方法减少了深层网络占用的内存量, 也减少了网络的参数个数, 缓解模型的过拟合问题。为了包管一定水平的平移、 标准、 畸变不变性, CNN 设计了局部感受野、共享权重和空间或时间下采样, 提出用于字符识另外卷积神经网络LeNet5。LeNet5 由卷积层、下采样层、全连接层构成, 该系统在小规模手写数字识别中取得了较好的结果。 年, Krizhevsky等采取称为AlexNet 的卷积网络在 ImageNet 竞赛图像分类任务中取得了最好的成果, 是 CNN 在年夜规模图像分类中的巨年夜胜利。AlexNet 网络具有更深层的结构, 并设计了ReLU (Rectified linear unit) 作为非线性激活函数以及 Dropout 来避免过拟合。在 AlexNet 之后, 研究者由提出了网络层数更深的神经网络,例如谷歌设计的谷歌Net和MSRA设计的152层的深度残差网络等。表 1 是 ImageNet 竞赛历年来图像分类任务的部分领先结果,可以看出,层数越深的网络往往取得的分类效果更好。为了更好地改进卷积神经网络, 本文在CIFAR10数据集上研究了不合的网络层设计、损失函数的设计、激活函数的选择、正则化等对卷积网络在图像分类效果方面的影响,本文引入了Batch Normalization与dropout结合的办法,通过加深卷层神经网络的层数,有效地提高了卷积神经网令狐采学创作 令狐采学创作 络在图像分类准确率。
表11 ImageNet历年图像分类任务结果 公布时间 机构 Top5毛病率(%) 网络名称 网络深度 .12.10 MSRA 3.57 ResNet 152 .8.18 谷歌 6.66 谷歌Net 22 .11.14 NYU 7.33 Clarifai 10 .10.13 U.Toronto 11.7 Alexnet 8
2 卷积神经网络的模型阐发 2.1网络基本拓扑结构 卷积神经网络与其他神经网络模型最年夜的区别是卷积神经网络在神经网络的输入层前面连接了卷积层,这样卷积层就酿成了卷积神经网络的数据输输入。 LeNet5是YanLecun开发的用于手写字符识另外经典卷积神经网络模型,图21是其结构图。
图21 LeNet5结构图 LeNet5的体系结构有7层,其中有3个卷积层。第一卷积层由6个特征图 (Feature Maps, FM)组成,故C1包含156可训练参数((6个5X5内核加上6偏值)来创建122304 (156* (28*28) 122, 304)个连接。在C1层FM的尺寸为28 x 28,由于鸿沟条件,第二卷积层,C3包含1500权重和16偏置,C3层共有1516个可训练参数以及151600个连接。S2和C3之间的连接如表21所示。Lecun设计这些连接最年夜化的特征由C3提取的数目,同时减少权重的数目。在最后的卷积层C5包含120个FM,输出尺寸为1X1。 LeNet5的体系结构还包含有两个子采样层:S2和S4,S2包含6个特征图和S4有16个特征图。层S2有12个可训练的参数与5880连接,而层S4有32个可训练参数与156000连接。
表21 S2与S3之间的连接 令狐采学创作 令狐采学创作 总结LeNet5的网络结构,我们获得卷积神经网络的基本结构可以分为四个部分:输入层,卷积层,全连接层和输出层四个部分: 输入层:卷积输入层可以直接作用于原始输入数据,对输入是图像来说,输入数据是图像的像素值。 卷积层:卷积神经网络的卷积层,也叫做特征提取层,包含二个部分。第一部分是真正的卷积层,主要作用是提取输入数据特征。每一个不合的卷积核提取输入数据的特征都不相同,卷积层的卷积核数量越多,就能提取越多输入数据的特征。第二部分是pooling层,也叫下采样层(Subsamping),主要目的是在保存有用信息的基础上减少数据处理量,加快训练网络的速度。通常情况下,卷积神经网络至少包含二层卷积层(这里把真正的卷积层和下采样层统称为卷积层),即卷积层pooling层卷积层pooling层。卷积层数越多,在前一层卷积层基础上能够提取更加笼统的特征。 全连接层:可以包含多个全连接层,实际上就是多层感知机的隐含层部分。通常情况下后面层的神经节点都和前一层的每一个神经节点连接,同一层的神经元节点之间是没有连接的。每一层的神经元节点辨别通过连接线上的权值进行前向传播,加权组合获得下一层神经元节点的输入。 输出层:输出层神经节点的数目是根据具体应用任务来设定的。如果是分类任务,卷积神经网络输出层通常是一个分类器,通常是Softmax分类器。
2.2卷积和池化 2.2.1卷积 卷积,一般利用卷积核对图像进行特征提取,其中最重要的就是卷积核。卷积核的设计一般涉及卷积核的年夜小(size),卷积核的数目(number)以及卷积核的步长((stride)。 从理论上来说,卷积核的个数暗示从上层中通过卷积滤波获得特征图的个数,提取的特征图越多,网络暗示特征空间就越年夜,学习能力也就越强,最后识别结果就比较准。但卷积核太多(特征图太多),增年夜网络的庞杂度,增加参数的个数,加年夜了计算的庞杂度,易呈现过拟合现象,所以有时候卷积核