深度学习研究概述(2)
计算机工程应用技术
信息与电脑 China Computer&a6 年第 3 期
深度学习研究概述
刘钰鹏
(北方民族大学,宁夏 银川 750021)
摘 要: 深度学习作为机器学习的一个新的研究方向,近年来在许多领域的应用中取得了突破性进展。2006 年, Geoffrey Hinton 教授发表的一篇文章开启了深度学习在学术界和工业界的浪潮。如今,深度学习已经在许多领域的应 用中具有举足轻重的地位。2012 年,谷歌 Google Brain 项目建立的深度神经网络学习模型,在语音识别和图像第一个重点研究方向便是深度学习。同年, MIT Technology Review 杂志将深度学习列为 2013 年十大突破技术之首。本文将主要介绍这一逐渐兴起的新技术的基本 概况。 关键词:深度学习;层次性学习;深度置信网络;卷积神经网络 中图分类号:TP18 文献标识码:A 文章编号:1003-9767(2016)03-052-02
结构层的非完全连接的神经网络结构。卷积层由多个用于抽 取表征的特征平面构成,每个特征平面由许多神经元构成。 卷积神经网络是一个多层的神经网络,每层由多个二维平面 组成,而每个平面上分布着多个独立神经元,上一层中的局 部单元输出量作为下一层邻近单元的输入。输入图像通过可 训练的滤波器加偏置量进行卷积,卷积后在卷积层产生多个 映射平面。次抽样层的特征映射平面需要将卷积层输出的映 射平面中的每组像素通过求和、加权、偏置等操作,再经过 sigmoid 函数的处理得到。之后,次抽样层输出的映射平面 经过滤波处理后得到新的卷基层,并将其进行与次抽样层相 同的处理得到下一层。最终,这些像素值被光栅化,并连接 成一个向量输入到传统的神经网络,得到输出。一般情况下, 都是先进行表征提取,将每个神经元的输入与前一层的局部 感受野相连,通过一系列操作获取表征。一旦该局部表征被 提取,它与其他表征间的位置关系便被确定下来。特征提取 后一般进行特征映射操作。网络的每个计算层由多个特征映 射组成,每个特征映射单元为一个平面,平面上所有神经元 的权值相等。特征映射结构采用严格递增函数 sigmoid 函数 作为卷积网络的激活函数。它能较好地平衡线性和非线性之 间的行为,使得特征映射具有位移不变性。 此外,由于相同映射面上的神经元共享权值,因而减少 了网络自由参数的个数,降低了网络参数选择的复杂度。构 建过程中,卷积神经网络每一个特征提取层后都会跟随一个 次抽样层。这种特有的两次特征提取结构、局部感受野、权 值共享以及时间或空间亚采样等几种结构思想结合起来,获 得了某种程度的位移、尺度、形变不变性。 2.2 深度置信网络(DBN) 深度置信网络是由多个受限玻尔兹曼机(RBM)堆叠 而成的。RBM 是由 G.E.Hinton 等提出的一种基于能量理论 的概率模型,并通过热力学能量函数定义了一个概率分布。
1 深度学习的简介
深度学习的“深度”是相对于传统的分类、回归等“浅 层学习”方法而言的。浅层学习方法会出现因样本和计算单 元有限而对复杂函数的表示能力产生限制的缺陷,致使这些 浅层方法针对复杂分类问题的泛化能力受到一定制约。而深 度学习的实质在于通过海量数据和构建多隐层的人工神经网 络,经过训练对原始信号进行逐层特征变换,将样本在空间 的特征表示映射到新的特征空间,无监督地学习,得到层次 化的特征表示。 深度学习的层次结构一般由输入层、隐层、输出层组成。 其中,相邻层的节点之间有连接,同一层节点之间无连接。 这种分层训练的模式就是模拟人类大脑对外部输入的声音、 图像、文本等数据进行从低维到高维的特征提取,从而解释 外部数据的过程。而深度学习正是因为其具有多层非线性映 射的深层结构,才可以完成复杂函数的函数逼近。
— 53 —
2 深度学习的经典算法
深度学习是机器学习的一个分支,也有监督学习与无监 督学习之分。例如,卷积神经网络(CNNs),多层感知机 等属于监督学习;深度置信网络(DBNs)、自动编码器、 系数编码等属于无监督学习。本文分别以卷积神经网络和深 度置信网络为例进行介绍。 2.1 卷积神经网络(CNNs) Hubel 和 Wiesel 在研究猫脑皮层时,发现了一种可以有 效降低反馈神经网络的复杂性的独特神经网络结构。受此启 发,Fikushima、LeCun 等学者提出卷积神经网络,并将其成 功运用。而今,卷积神经网络已经发展成为一种具有高准确 率的图像识别方法。 卷积神经网络是一种包含卷积层和次抽样层两种特殊
作者简介:刘钰鹏(1990-),男,山东牟平人,研究生在读。研究方向:基于深度学习的三维 CAD 模型检索。
— 52 —
2016 年第 3 期
信息与电脑 China Computer&Communication
计算机工程应用技术
RBM 结构分为可视层(v)和隐层(h),每一层节点之间无 连接,但层与层之间通过权值 w 彼此连接。这也是 RBM 的 一个优点,其所有可视的节点独立于其他可视节点(隐层节 点亦然)。 RBM 的传统训练方法:初始化可视层后,在可视层与 隐层之间交替进行吉布斯采样,即用条件分布概率 P(h|v) 计 算隐层;将其输出作为可视层的输入,同样用条件分布概 率 P(h|v) 来计算;重复进行这样的采样过程,直到可视层和 隐层达到平稳分布的状态。这种方式下,通常需要使用次数 较多的采样,尤其是在数据的特征维度较高时,使得训练效 率不高。因而,Hinton 提出了一种快速算法,称作对比散度 (contrastive divergence,CD)学习算法。这种算法使用训 练数据初始化可视层后,只需要较少次迭代就可获得对模型 的估计 。 深度置信网络是将多个 RBM 堆叠起来。DBNs 训练分 为两个阶段:预训练与微调。预训练时,每一层都是进行无 监督学习,将前一层的输出作为后一层的输入,直至最高层。 将训练好的网络参数值作为整体网络参数的初始值,之后便 是微调,即利用有监督的学习对网络进行训练。
参考文献
[1]SMOLENSKY P. Information Processing in Dynamical Systems : Foundations of Harmony Theory[A]//Rumelhart D E,McClelland J L.Parallel Distributed Processing[M]. Cambridge MA: MIT Press,1986:194-281. [2]Hinton G E, Salakhutdinov R R. Reducing the D i me nsi onal it y of D a ta Wit h N e ur a l N e t w or ks[ J] . Science,2006(5786):504-507. [3]D Bahdanau,K Cho,Y Bengio.Neural Machine Translation by Jointly Learning to Align and Translate[M].Los Alamos:Eprint Arxiv,2014. [4]Shuhui Bu, PengchengHan, ZhenbaoLiu , JunweiHan , HongweiLin.Local Deep Feature Learning Framework for 3D Shape[J].Computers&Graphics,2015:117-129. [5]Fei-wei QIN, Lu-ye LI, Shu-ming GAO, Xiaol i n g YA N G , X i a n g C H E N . A D e e p L e a r n i n g A p p r o a c h to the Classification of 3D CAD Models[J].Comput & Electron,2014:91-106.
[1]
词,预测对应于该单词的目标单词,效果明显优于 RNNenc 模型。 近一段时间,深度学习被图形领域的学者所关注。Bu 等 人 [4] 也 将 深 度 学 习 引 入 3D 模 型 中。 他 们 通 过 对 Google 3D Warehouse 的分析,选择基于特征的描述符。首先,他 们使用尺度不变的热核描述符和平均测地线距离提取 3D 模 型的低层描述符,然后生成中层描述符 LGA-BoF(the local geodesic-aware bag-of-features),最后构建深度置信网络, 并将中层描述符作为输入进行学习。Qin 等人 [5] 首次将深度 学习引入 3D 模型的检索中,他们选择基于视图的 3D 描述符 即 LFD,从 10 个光域对模型进行拍照,每个光域获取 20 个 角度的模型图像信息,然后从这些图像中提取泽尼克矩描述 符作为深层神经网络的输入进行学习,学习后的分类效果比 较理想。
4 结 语
深度学习已经成功应用于很多领域的模式分类问题。这 一领域虽处于发展初期,还存在许多问题,但其对机器学习 领域的影响力不容小觑。
3 深度学习应用
近年来,深度学习在图形图像、语音、文字数据的处 理应用上取得了优异效果。图像是深度学习最早尝试的应用 领 域。Vincent 等 人 将 CNNs 应 用 在 MNIST 数 据 库 手 写 体 识别中。由于使用局部感受野方法获取观测特征与平移、 缩 放 和 旋 转 无 关,CNNs 在 手 写 体 识 别 的 效 果 极 其 理 想。 Kavukcuoghi 等人采用无监督方法来学习多层稀疏卷积特征, 用于图像识别。与采用线性解码器从稀疏特征中重构图像的 方法不一样的是,这种方法训练了一个有效的前馈编码器, 从输入中预测准稀疏(Quasi Sparse)特征。2012 年 10 月, Hinton 教授以及他的两个学生采用更深的卷积神经网络模型 在著名的 ImageNet 问题上取得了世界最好成果,使得对图 像识别的研究工作前进了一大步 [2]。Hinton 构建的深度神经 网络模型是使用原始的自然图像训练的 , 没有使用任何人工 特征提取方法。在自然语言处理领域,D.Bahdanau 等人在 K.Cho 突出的一种基于循环神经网络的向量化定长表示模型 (RNNenc)的基础上,克服该模型中固定长度的缺点,提 出了 RNNsearch 的模型 [3]。该模型在翻译每个单词时,根据 该单词在源文本中最相关信息的位置以及已翻译出的其他单