SHANGHAI JIAO TONG UNIVERSITY论文题目:基于卷积神经网络的自然图像分类技术研究姓名: 高小宁专业:控制科学与工程基于卷积神经网络的自然图像分类技术研究摘要:卷积神经网络已在图像分类领域取得了很好的效果,但其网络结构及参数的选择对图像分类的效果和效率有较大的影响。
为改善卷积网络的图像分类性能,本文对卷积神经网络模型进行了详细的理论分析,并通过大量的对比实验,得出了影响卷积网络性能的因素。
结合理论分析及对比实验,本文设计了一个卷积层数为8层的深度卷积网络,并结合Batch Normalization、dropout等方法,在CIFAR-10数据集上取得了88.1%的分类精度,有效地提高了卷积神经网络的分类效果。
关键词:卷积神经网络,图像分类,Batch Normalization,DropoutResearch on Natural Image Classification Based onConvolution Neural NetworkAbstract: Convolution neural network has achieved very good results in image classification, but its network structure and the choice of parameters have a greater impact on image classification efficiency and efficiency. In order to improve the image classification performance of the convolution network, a convolutional neural network model is analyzed in detail, and a large number of contrastive experiments are conducted to get the factors that influence the performance of the convolution network. Combining the theory analysis and contrast experiment, a convolution layer depth convolution network with 8 layers is designed. Combined with Batch Normalization and dropout, 88.1% classification accuracy is achieved on CIFAR-10 dataset. Which improves the classification effect of convolution neural network.Key Words: Convolution neural network(CNN), image classification, Batch Normalization, Dropout目录基于卷积神经网络的自然图像分类技术研究....................................................... - 1 -1引言.. (3)2卷积神经网络的模型分析 (4)2.1网络基本拓扑结构..................................................................................... - 4 -2.2卷积和池化................................................................................................. - 5 -2.3激活函数..................................................................................................... - 6 -2.4 Softmax分类器与代价函数...................................................................... - 7 -2.5学习算法..................................................................................................... - 8 -2.6 Dropout ..................................................................................................... - 10 -2.7 Batch Normalization ................................................................................. - 11 -3模型设计与实验分析.. (12)3.1 CIFAR-10数据集..................................................................................... - 12 -3.2 模型设计.................................................................................................. - 13 -3.3 实验结果与分析...................................................................................... - 15 -4结论 (22)参考文献 (23)1 引言1986 年, Rumelhart 等提出人工神经网络的反向传播算法(Back propagation, BP), 掀起了神经网络在机器学习中的研究热潮。
但是由于BP神经网络存在容易发生过拟合、训练时间长的缺陷, 90年代兴起的基于统计学习理论的支持向量机具有很强的小样本学习能力。
学习效果也优于BP神经网络,导致了神经网络的研究再次跌入低估。
2006 年, Hinton 等人在Science 上提出了深度学习. 这篇文章的两个主要观点是: 1) 多隐层的人工神经网络具有优异的特征学习能力, 学习到的数据更能反映数据的本质特征,有利于可视化或分类;2) 深度神经网络在训练上的难度, 可以通过逐层无监督训练有效克服。
理论研究表明为了学习到可表示高层抽象特征的复杂函数, 需要设计深度网络。
深度网络由多层非线性算子构成, 典型设计是具有多层隐节点的神经网络。
但是随着网络层数的加大, 如何搜索深度结构的参数空间成为具有挑战性的任务。
近年来, 深度学习取得成功的主要原因有:1) 在训练数据上, 大规模训练数据的出现(如ImageNet), 为深度学习提供了好的训练资源;2) 计算机硬件的飞速发展(特别是GPU 的出现) 使得训练大规模神经网络成为可能。
卷积神经网络(Convolutional neural networks, CNN) 是一种带有卷积结构的神经网络, 卷积结构采用权值共享的方式减少了深层网络占用的内存量, 也减少了网络的参数个数, 缓解模型的过拟合问题。
为了保证一定程度的平移、尺度、畸变不变性, CNN 设计了局部感受野、共享权重和空间或时间下采样, 提出用于字符识别的卷积神经网络LeNet-5。
LeNet-5 由卷积层、下采样层、全连接层构成, 该系统在小规模手写数字识别中取得了较好的结果。
2012 年, Krizhevsky等采用称为AlexNet 的卷积网络在ImageNet 竞赛图像分类任务中取得了最好的成绩, 是CNN 在大规模图像分类中的巨大成功。
AlexNet 网络具有更深层的结构, 并设计了ReLU (Rectified linear unit) 作为非线性激活函数以及Dropout 来避免过拟合。
在AlexNet 之后, 研究者由提出了网络层数更深的神经网络,例如Google设计的GoogLeNet和MSRA设计的152层的深度残差网络等。
表1 是ImageNet 竞赛历年来图像分类任务的部分领先结果,可以看出,层数越深的网络往往取得的分类效果更好。
为了更好地改进卷积神经网络, 本文在CIFAR10数据集上研究了不同的网络层设计、损失函数的设计、激活函数的选择、正则化等对卷积网络在图像分类效果方面的影响,本文引入了Batch Normalization与dropout结合的方法,通过加深卷层神经网络的层数,有效地提高了卷积神经网络在图像分类准确率。
表1-1 ImageNet历年图像分类任务结果公布时间机构Top-5错误率(%)网络名称网络深度2015.12.10MSRA 3.57ResNet1522014.8.18Google 6.66GoogLeNet222013.11.14NYU7.33Clarifai102012.10.13U.Toronto11.7Alexnet82 卷积神经网络的模型分析2.1网络基本拓扑结构卷积神经网络与其他神经网络模型最大的区别是卷积神经网络在神经网络的输入层前面连接了卷积层,这样卷积层就变成了卷积神经网络的数据输输入。
LeNet-5是Yan Lecun开发的用于手写字符识别的经典卷积神经网络模型,图2-1是其结构图。
图2-1 LeNet-5结构图LeNet-5的体系结构有7层,其中有3个卷积层。
第一卷积层由6个特征图(Feature Maps, FM)组成,故C1包含156可训练参数((6个5X5内核加上6偏值)来创建122304 (156* (28*28) -122, 304)个连接。
在C1层FM的尺寸为28 x 28,由于边界条件,第二卷积层,C3包含1500权重和16偏置,C3层共有1516个可训练参数以及151600个连接。
S2和C3之间的连接如表2-1所示。
Lecun设计这些连接最大化的特征由C3提取的数目,同时减少权重的数目。
在最后的卷积层C5包含120个FM,输出尺寸为1X1。
LeNet-5的体系结构还包含有两个子采样层:S2和S4,S2包含6个特征图和S4有16个特征图。