当前位置：文档之家› 基于深度学习的图像识别进展百度的若干实践

基于深度学习的图像识别进展百度的若干实践

语音搜索、图像识别等领域，涵盖几十项产品。

今天，用户在百度平台上的几乎每个服务请求，都被深度学习系统所处理。

人工智能的特征之一是学习的能力，即系统的性能是否会随着经验数据的积累而不断提升。

所以，大数据时代的到来给人工智能的发展提供前所未有的机遇。

在这个时代背景下，深度学习在包括图像识别等方面所取得的突破性进展并非偶然。

在百度的实践中，我们认识到深度学习主要在以下三个方面具有巨大优势：1.从统计和计算的角度看，深度学习特别适合处理大数据。

在很多问题上，深度学习是目前我们能找到的最好方法。

它集中体现了当前机器学习算法的三个大趋势：用较为复杂的模型降低模型偏差(model bias)，用大数据提升统计估计的准确度，用可扩展(scalable)的梯度下降算法求解大规模优化问题。

2.深度学习不是一个黑箱系统。

它像概率模型一样，提供一套丰富的、基于联接主义的建模语言（建模框架）。

利用这套语言系统，我们可以表达数据内在的丰富关系和结构，比如用卷积处理图像中的二维空间结构，用递归神经网络(Recurrent Neu-ral Network, RNN)处理自然语言等数据中的时序结构。

3.深度学习几乎是唯一的端到端机器学习系统。

它直接作用于原始数据，自动逐层进行特征学习，整个过程直接优化某个目标函数。

而传统机器学习往往被分解为几个不连贯的数据预处理步骤，比如人工抽取特征，这些步骤并非一致地优化某个整体的目标函数。

让计算机识别和理解图像，是人工智能最重要的目标之一。

尤其是在移动互联网时代，智能手机上的摄像头将人们日常看到的世界捕捉下来，图像和视频数据暴增，造就了图像大数据时代。

概述：深度学习和图像识别近年来在人工智能领域最受关注的，非深度学习莫属。

自2006年吉奥夫雷·辛顿(Geoffery Hinton)等在《科学》(Science )杂志发表那篇著名的论文[1]开始，深度学习的热潮从学术界席卷到了工业界。

2012年6月，《纽约时报》披露“谷歌大脑(Google Brain)”项目，由著名的斯坦福大学机器学习教授吴恩达(Andrew Ng)和大规模计算机系统世界顶级专家杰夫·迪恩(Jeff Dean)共同主导，用1.6万个CPU 核的并行计算平台训练深度神经网络(Deep Neural Networks, DNN)的机器学习模型，在语音和图像识别等领域获得巨大成功。

国内方面，2013年1月，百度成立深度学习研究院，公司CEO 李彦宏担任院长。

短短两年时间，深度学习技术被应用到百度的凤巢广告系统、网页搜索、基于深度学习的图像识别进展：百度的若干实践关键词：深度学习　图像分类　物体检测都大龙　余轶南　罗　恒　等百度公司计算机视觉的主要内容就是图像识别：一方面，这个技术使得计算机像人类视觉系统一样，具有“看懂”世界的能力，从而能自主适应环境、改造环境；另一方面，依靠识别图像内容，可以帮助我们更好地了解人，比如，通过用户产生的拍照内容了解用户的行为和喜好，或者通过识别用户手势理解用户的意图。

借助图像识别让互联网服务更好地理解世界、洞察用户，也是百度深度学习研究院重点投入的技术研发方向之一。

有意思的是，深度学习研究的初衷主要就是应用于图像识别。

迄今为止，尽管深度学习已经被应用到语音、图像、文字等方面，但深度学习领域发表的论文中大约70%是关于图像识别的。

从2012年的ImageNet[2]竞赛开始，深度学习在图像识别领域发挥出巨大威力，在通用图像分类、图像检测、光学字符识别(Optical Character Recognition, OCR)、人脸识别等领域，最好的系统都是基于深度学习的。

前面所述深度学习的三大优势，在最近图像识别的进展中体现得淋漓精致：模型结构越来越复杂，训练数据规模也不断增加；各种关于数据结构的先验知识被体现到新的模型结构中；端到端学习让我们越来越摒弃基于人工规则的中间步骤。

百度深度学习研究院在基于深度学习的图像识别课题上开展了大量工作，并取得丰硕成果。

在将基于深度学习的图像识别应用于图像搜索、网页搜索、百度魔图、涂书笔记、作业帮、百度街景等互联网产品以及百度眼镜(BaiduEye)、自动驾驶等创新性研究项目方面，也积累了丰富经验。

下面与大家分享若干个技术实践。

基于深度学习的图像分类和物体检测算法图像分类(image classifica-tion)和物体检测(object detec-tion)是图像识别的两个核心问题。

前者主要对图像整体的语义内容进行类别判定，后者则定位图像中特定物体出现的区域并判定其类别。

与图像分类相比，物体检测更加关注图像的局部区域和特定的物体类别集合，被视为更加复杂的图像识别问题。

两项技术在信息检索、广告投放、用户分析、商品推荐等互联网应用中大有用武之地。

传统图像分类算法中具有代表性的是杨(Yang)等人[3]在2009年提出的采用稀疏编码(sparse coding)表征图像、通过大规模数据训练支持向量机(sup-port vector machine)进行图像分类的方法。

这类方法在2010年和2011年的ImageNet[1]图像分类竞赛中取得了最好成绩，其主要缺陷在于稀疏编码和分类模型是在不同目标函数的监督下分开训练得到的，两者无法有效地联合训练。

变革发生于2012年，辛顿等人[4]采用卷积神经网络(Convolutional Neural Network,CNN)将ImageNet图像Top5分类识别错误率从之前的25%降低到15%。

随后，以卷积神经网络为代表的各种深度学习算法被广泛应用于传统的图像识别中，不断刷新纪录。

截至2014年，Ima-图1　2010年到2014年ImageNet竞赛的识别错误率变化以及人的识别错误率识别错误率30％25％20％15％10％5％0％2010 2011 2012 2013 2014 人geNet 图像Top5分类的识别错误率已经降低到6.73%[5]。

斯坦福大学的安德烈·卡帕西(Andrej Karpathy)等人[6]对比了卷积神经网络和人在ImageNet 数据库上的性能，发现目前最好的卷积神经网络模型距离人的识别率仅一步之遥（见图1）。

而目前在较小的CIFAR-10数据库上，卷积神经网络的性能已经超过了人[7]。

在物体检测方面，如图2所示，目前主流的算法大都采用扫描窗或是候选窗方法[8]，选取图像中许多大小位置不同的子区域进行分类（某种物体或是背景），最终得到感兴趣的物体出现的位置区域。

扫描窗方法能够在相邻窗口之间共享特征，可以快速地扫描较大面积的图像；候选窗方法能够高效地在图像候选区域内进行识别，更为灵活地处理物体长宽比的变化，从而获得较高的交并比覆盖率。

扫描窗和候选窗都是将物体检测问题归结为图像分类问题予以解决，因此，卷积神经网络同样可以在物体检测中大放异彩。

在ImageNet 2014[2]的物体检测竞赛中，百度研发的物体检测算法在采用优化的候选框产生算法基础上，加上一个10层卷积神经网络模型，结合图像的上下文信息，平均精度达到40.3%。

近几年，深度学习在图像识别中的发展主要有以下几个趋势：1.模型层次不断加深。

2012年，艾利克斯(Alex)获得当年ImageNet 竞赛冠军时用的网络使用了5个卷积层（另外包括3个pool 层和2个norm层）。

而到2014年，获得冠军的GoogleNet [5]使用了59个卷积层（另外包括16个pool 层和2个norm 层）。

第二名的VGG [9]也使用19个卷积层，并获得较好的性能。

模型深度的重要性不言而喻。

2.模型结构日趋复杂。

传统的卷积神经网络模型多使用简单的conv-pool-norm 结构进行堆砌，GoogleNet [5]的结果表明，并行多分辨率的inception 结构能够融合图像在不同尺度上的有效信息，而NIN(network-in-network)[10]结构则通过低秩分解对较大参数规模的卷积层进行参数压缩，大大减小模型参数规模。

这样做，一方面能够降低过拟合程度，提高模型的推广能力，另一方面则为大规模并行训练提供非常有利的条件。

3.海量的标注数据和适当的数据扰动。

ImageNet 2012分类竞赛的训练数据包含120万左右的标注样本，而ImageNet 全库目前已经收集将近2.2万个类别共约1420万图像。

但仅有这些数据仍不足以避免参数规模庞大的深度学习模型的过训练现象。

结合图像数据的特点，包括平移、水平翻转、旋转、缩放等数据扰动方式被用于产生更多有效的训练数据，能够普遍提高识别模型的推广能力。

值得一提的是，百度利用并行分布式深度学习平台(PArallel Distributed Deep LEarning, PAD-DLE)，收集建立起规模更大、更符合个人电脑和移动互联网特点的图像数据仓库，这些数据结合深度学习算法产出的各种图像分类和物体检测模型，已经广泛服务于许多与图像有关的百度产品线。

以互联网色情图片过滤为例，我们的训练数据囊括了1.2亿幅色情图像，分类精度达99.4%。

基于端到端的序列学习：对传统光学字符识别框架的改造光学字符识别的概念早在20世纪20年代便被提出，一直是模式识别领域研究中极具代表性的重要课题。

近些年，随着移动互联网的发展，光学字符识别技术的应用场景也从传统的办公领域（例如邮政编码、书籍扫描和图2　区域卷积神经网络流程图[9]3.计算卷积神经网络特征1.输入图像2.提取子区域(extractregion proposals(~2k))4.区域分类扭曲的区域(warped region)aeroplane?no.person?yes.tvmonitor?no.CNN文档传真）逐渐渗入日常生活，产生出许多以手机拍照光学字符识别作为入口的文字信息录入及查询类应用。

经典的光学字符识别系统的流程和技术框架如图3所示，从输入图像到输出最终的文字识别结果，历经版面分析、行分割、字分割、单字识别、语言模型解码和后处理。

涉及的技术分为基于经验制定的规则和基于统计学习的模型[11]两大类。

前者包括系统预处理阶段（版面分析、行分割、字分割）的二值化、连通域分析、投影分析等，以及后处理阶段的规则噪声过滤器；后者包括基于类方向梯度直方图(Histogram of Oriented Gradient, HOG)特征的单字识别引擎[12]和基于N-gram 的语言模型，用于单字识别和语言模型解码阶段。

在以印刷体文档扫描识别为代表的光学字符识别传统应用场景中，版面结构的规则性较强，字形、字体的一致性较高，而文字同背景的区分性又较好。

在数据简单、条件可控的情况下，经典的光学字符识别技术架构通过细致的人工规则制定和适量的模型参数学习，便可以达到比较理想的识别精度。

e商务文档

基于深度学习的图像识别进展百度的若干实践

相关文档推荐：