当前位置:文档之家› 深度学习的研究

深度学习的研究

深度学习的研究1、定义和背景:1.1 深度学习(DL)有各种相近的定义或者高层次描述自2006年以来,深度学习(deep learning)(也通常叫做深层结构学习或分层学习)已经成为机器学习领域的一个新兴领域(Hinton et al., 2006; Bengio, 2009 ).在过去几年中,深度学习技术的发展已经对信号和信息过程领域产生广泛的影响,并将继续影响到机器学习和人工智能的其它关键领域;参见综述文章(Bengio et al., 2013; Hinton et al., 2012; Yu and Deng, 2 011; Deng, 2011; Arel et al., 2010 ).最近,已有一系列的致力于关于深度学习以及应用的研讨会和特别会议。

包括:这些研究团队在DL的各种不同应用中取得经验性的成功,如计算机视觉、语音识别、语音搜索、语音识别、语音会话和图像特征编码、语义分类、手写识别话语、音频处理、信息检索、机器人学、甚至在分析可能导致新药的分子方面等等。

许多优秀的经常更新教程、传统机器学习和信号处理技术探索仅含单层非线性变换的浅层学习结构。

浅层模型的一个共性是仅含单个将原始输入信号转换到特定问题空间特征的简单结构。

典型的浅层学习结构包括传统隐马尔可夫模型(HMM)、条件随机场(CRFs)、最大熵模型(MaxEnt)、支持向量机(SVM)、核回归及仅含单隐层的多层感知器(MLP)等。

例如,SVM用包含一层(使用核技巧)或者零个特征转换层的浅层模式分离模型。

(最近已有将核方法与DL结合的新方法。

如,Cho and Saul, 2009; Deng et al., 2012; Vinyals et al., 201 2)。

浅层结构的局限性在于有限的样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定制约。

神经科学研究表明,人的视觉系统的信息处理是分级的。

人类感知系统这种明确的层次结构极大地降低了视觉系统处理的数据量,并保留了物体有用的结构信息。

有理由相信,对于要提取具有潜在复杂结构规则的自然图像、视频、语音和音乐等结构丰富数据,深度学习能够获取其本质特征。

受大脑结构分层次启发,神经网络研究人员一直致力于多层神经网络的研究。

历史上,深层学习的概念起源于神经网络的研究。

带有多隐层的前馈神经网络或者多层感知器通常被成为深层神经网络(DNNs),DNNs就是深层构架的一个很好的例子。

BP算法作为传统训练多层网络的典型算法,实际上对于仅含几层网络,该训练方法就已很不理想(参见(Bengio, 2009; Glorot and Bengio, 2010). 在学习中,一个主要的困难源于深度网络的非凸目标函数的局部极小点普遍存在。

反向传播是基于局部梯度下降,通常随机选取初始点。

使用批处理BP算法通常会陷入局部极小点,而且随着网络深度的增加,这种现象更加严重。

此原因在一定程度上阻碍了深度学习的发展,并将大多数机器学习和信号处理研究从神经网络转移到相对较容易训练的浅层学习结构。

经验上,有3种技术可以处理深层模型的优化问题:1.大量的隐藏的单元,2.更好的学习算法,3.以及更好的参数初始化技术。

使用带有大量神经元的DNN可以大大提高建模能力。

由于使用带有大量神经元的DNN得到较差局部最优值的可能性要小于使用少量神经元的网络,即使参数学习陷入局部最优,DNN仍然可以很好的执行。

但是,在训练过程中使用深而广的神经网络,对计算能力的需求要求很大。

更好的算法也有助于了DNNs的训练。

例如,现在随机BP算法已经代替了批处理BP算法用来训练DNNs。

部分原因是由于,当训练是单学习器和大训练集上进行时,随机梯度下降(SGD)算法是最有效的算法(Bottou and LeCun,2004)。

但更重要的是SGD算法可以经常跳出局部最优。

其它算法,如Hessian free (Martens 2010)或Krylov子空间方法(Vinyals and Povey 2011)有类似的能力。

很明显,对于高度非凸的DNN学习的优化问题,更好的参数初始化技术将导致更好的模型.然而,如何高效的初始化DNN的参数却不是很显然的事情。

最近,学者们给出很好的结果(Hinton et al. 2006; Hinton and Salakhutdinov, 2006; Bengio,2009;Vincent et al., 2010; Deng et al., 2010; Dahl et al., 2010, 2012; Seide et al. 2011).最著名的DNN参数初始化技术就是无监督预训练(pre-training)技术的提出(Hinton et al. 2006; Hinton and Salakhutdinov, 2006). 在上述文章中,引入了一个被称作深层信念网(DBN)的深层贝叶斯概率生成模型。

为了学习DBN中的参数,提出非监督贪心逐层训练算法,算法把DBN中的每两层作为一个限制玻耳兹曼机(RBM)。

这使得优化DBN参数的计算复杂度随着网络的深度成线性增长。

DBN参数可以直接用作MLP或DNN参数,在训练集较小的时候,可以得到比随机初始化的有监督BP训练要好的MLP或DNN。

带有无监督DBN预训练,随后通过反向微调(fine-tuning)的DNNs有时候也被称作DBNs(e.g., Dahl et al., 2011; Mohamed et al., 2010, 2012). 最近,研究人员已经更小心区分DNNs 和DBNs(Dahl et al., 2012; Hinton et al., 2012) ,当DBN用于初始化一个DNN的参数,由此产生的网络叫做DBN-DNN(Hinton et al., 2012).DBN预训练过程不是唯一有效的DNNs初始化方法。

另一种效果同样好的无监督方法是通过把每两层作为一个去噪自动编码器来逐层预训练DNNs(Bengio, 2009; Vincent et al., 2010) .另一种方法是用收缩自动编码器,它对于输入变化的敏感度较低(Rifai et al., 2011).而且,Ranzato et al. (2007) 提出了稀疏编码对称机(SESM),它与RBMs非常类似,都作为一个DBN的构造模块。

原则上,SESM也可以用来有效的初始化DNN 训练。

除了半监督预训练外,监督预训练(有时也叫作区别预训练)也被证明是有效的(Seide et al., 2011; Yu et al., 2011)。

在有标签样本数据充足的时候表现要优于无监督预训练技术。

区别预训练的主要思想是从一个隐层MLP开始,用BP算法训练。

然后,每次我们想要增加一个新的隐藏层,我们通过随机初始化一个新的隐藏和输出层来代替原来输出层,再用BP算法训练这个新的MLP(或DNN)。

与无监督预训练技术不同,区分与监督需要标签。

(注:常用的概念深层信念网络(Deep belief network —DBN):包含多层随机隐藏变量的概率生成模型。

最上面两层无向对称连接。

低层之间自上而下有向连接。

波尔兹曼机(Boltzmann machine —BM):类神经元单元对称连接成的网络,通过类神经元打开或者关闭来做出随机决策。

深层神经网络(DNN):一个带有多隐藏层的多层感知器,它的权被完全连接,应用一个半监督或一个监督预训练初始化。

深层自动编码器(Deep auto-encoder):一个输出就是输入本身的深层神经网络。

)3.典型的深度学习结构深度学习涉及相当广泛的机器学习技术和结构,根据这些结构和技术应用的方式,可以将其分成如下三类:a)生成性深度结构。

该结构描述数据的高阶相关特性,或观测数据和相应类别的联合概率分布。

b)区分性深度结构。

目的是提供对模式分类的区分性能力,通常描述数据的后验分布。

c)混合型结构。

它的目标是区分性的,但通常利用了生成型结构的输出会更易优化1.生成性深度结构在生成性深层结构的不同子类中,最常见的是基于能量的深层模型(e.g., Ngiam et al., 2011; Bengio, 2009; LeCun et al., 2007 ).深层自动编码器的原始形式(Hinton and Salakhutdinov, 2006; Deng et al., 2010)就属于一个典型的生成模型。

其他大部分的深层自动编码器自然也是生成模型,但是它们有着不同的性质和实现。

例如,转换自动编码器(Hinton et al., 2010),预测性稀疏编码和它们间的堆叠,去噪自动编码器和它们的叠加版本(Vincent et al., 2010).具体说,在去噪自动编码器中,输入首先被破坏,例如,随机选择输入和将其归零的百分比。

然后,用原始输入和重构输入的均方重构误差和KL距离来调整隐藏结点的参数去重构原始的,未破坏的数据。

未破坏数据的编码表示转换形式将作为下一层堆叠的去噪自动编码器的输入。

另一个著名的生成模型是深层玻尔兹曼机(DBM)(Salakhutdinovand Hinton, 2009, 2012; Srivastava and Salakhudinov, 2012).一个DBM包涵多个隐藏变量层,同一层之间变量没有连接。

它是一般的玻尔兹曼机的特殊情形。

虽然有简单的算法,但是一般BMs学习复杂而且计算缓慢。

在一个DBM中,每一层捕获下层隐藏特征的复杂的,高阶的相关性。

DBM有学习内部表示问题的潜力,而内部表示问题对目标和语音识别问题的解决至关重要。

此外,大量的无标记数据和非常有限的有标记数据可以构建高层表示,这样,高层表示可以用来微调模型。

当DBM的隐藏层的数目减少到1,我们就得到受限玻尔兹曼机(RBM)。

和DBM相似没有层之间的连接。

RBM的主要优点是通过组合多个RBMs,将一个RBM的特征激活作为下一层的训练数据,从而有效的学习多个隐藏层。

这样组成了深信度网(DBN)。

标准的DBN已经被扩展,使其在底层是一个分解的高阶玻尔兹曼机,在电话识别中获得了很强的结果(Dahl et. al., 2010)。

这个模型被称作mean-covariance RBM或mcRBM,标准RBM在表示数据的协方差结构是有局限的。

然而,训练mcRBM,把它用在深层构架的高层都是很困难的。

另一个深生成架构的是和-积网络或SPN(Poon and Domingo, 2011; Gens and Domingo, 2012). 一个SPN 是一个深层构架中的有向无环图,数据作为叶子,和运算和积运算作为内部节点。

“和”节点给出混合模型和“积”节点建立特征层次结构。

相关主题