深度置信网络BDN
空间的特征表示变换到一个新特征空间,从而使分类或预测更加 容易。与人工规则构造特征的方法相比,利用大数据来学习特征 ,更能够刻画数据的丰富内在信息。
上海海洋大学信息学院
深度学习
• 好处:可通过学习一种深层非线性网络结 构,实现复杂函数逼近,表征输入数据分 布式表示。
上海海洋大学信息学院
深度学习 vs. 神经网络
深度置信网络BDN
PPT模板下载:/moban/
目录
深度学习概述 RBM(受限玻尔兹曼机) DBN(深度信念网) 总结与展望 上海海洋大学信息学院
深度学习概述
上海海洋大学信息学院
基本概念
浅层学习与深度学习
浅层学习是机器学Βιβλιοθήκη 的第一次浪潮✓ 人工神经网络(BP算法)
—虽被称作多层感知机,但实际是种只含有一层隐 层节点的浅层模型
Z为归一化系数,其定义为:
Z eE(v,h) v,h
输入层的边缘概率为:
p(v) 1 eE(v,h)
Zh
上海海洋大学信息学院
可以通过随机梯度下降(stochastic gradient descent)来最大化L(θ),首先 需要求得L(θ)对W的导数
✓ SVM、Boosting、最大熵方法(如LR,Logistic Regression)
—带有一层隐层节点(如SVM、Boosting),或没 有隐层节点(如LR)的浅层模型
局限性:有限样本和计算单元情况下对复杂函数的 表示能力有限,针对复杂分类问题其泛化能力受 限。
上海海洋大学信息学院
基本概念
上海海洋大学信息学院
深度学习训练过程
• wake-sleep算法:
1)wake阶段: 认知过程,通过下层的输入特征(Input)和向上的认知(Encoder)权重 产生每一层的抽象表示(Code),再通过当前的生成(Decoder)权重产 生一个重建信息(Reconstruction),计算输入特征和重建信息残差, 使用梯度下降修改层间的下行生成(Decoder)权重。也就是“如果现实 跟我想象的不一样,改变我的生成权重使得我想象的东西变得与现实一 样”。
3)可通过学习一种深层非线性网络结构,实 现复杂函数逼近,表征输入数据分布式表 示。
上海海洋大学信息学院
深度神经网络
神经网络 :
深度学习:
上海海洋大学信息学院
深度学习的具体模型与方法
• 1)自动编码器( AutoEncoder ) • 2)稀疏自编码(Sparse AutoEncoder) • 3)卷积神经网络 • 4)限制玻尔兹曼机
上海海洋大学信息学院
基本概念
受限玻尔兹曼机
• 正如名字所提示的那样,受限玻尔兹曼机是一种 玻尔兹曼机的变体,但限定模型必须为二分图。
• 模型中包含对应输入参数的输入(可见)单元和 对应训练结果的隐单元,图中的每条边必须连接 一个可见单元和一个隐单元。
(与此相对,“无限制”玻尔兹曼机包含隐单元间 的边,使之成为递归神经网络。)
克服,逐层初始化可通过无监督学习实现的。
上海海洋大学信息学院
基本概念
• 深度学习:深度学习通过组合低层 特征形成更加抽象的高层表示属性 类别或特征,以发现数据的分布式 特征表示
• 深度神经网络:含有多个隐层的神 经网络
上海海洋大学信息学院
基本概念
• 深度学习:一种基于无监督特征 学习和特征层次结构的学习方法
• BM是一种对称耦合的随机反馈型二值单元神经网络,由可见层和多个隐层组成 ,网络节点分为可见单元(visible unit)和隐单元(hidden unit),用可见单元和隐单 元来表达随机网络与随机环境的学习模型,通过权值表达单元之间的相关性。
• BM是由Hinton和Sejnowski提出的一种随机递归神经网络,可以看做是一种随机 生成的Hopfield网络,是能够通过学习数据的固有内在表示解决困难学习问题的 最早的人工神经网络之一,因样本分布遵循玻尔兹曼分布而命名为BM。BM由二 值神经元构成,每个神经元只取1或0这两种状态,状态1代表该神经元处于接通 状态,状态0代表该神经元处于断开状态。
上,在最顶的编码层添加一个分类器(例如罗杰 斯特回归、SVM等),而后通过带标签数据的监 督学习,利用梯度下降法去微调整个网络参数。
深度学习的第一步实质上是一个网络参数初始 化过程。区别于传统神经网络初值随机初始化, 深度学习模型是通过无监督学习输入数据的结构 得到的,因而这个初值更接近全局最优,从而能 够取得更好的效果。
上图所示的RBM含有9个可见单元(构 成一个向量v)和3个隐藏单元(构成一个 向量h),W是一个9*3的矩阵,表示可 见单元和隐藏单元之间的边的权重。
上海海洋大学信息学院
基本概念
• RBM是玻尔兹曼机(Boltzmann machine,BM)的一种特殊拓扑结构。BM的原理 起源于统计物理学,是一种基于能量函数的建模方法,能够描述变量之间的高阶 相互作用,BM的学习算法较复杂,但所建模型和学习算法有比较完备的物理解 释和严格的数理统计理论作基础。
(2) 其中Z(θ)是归一化因子,也称为配分函数(partition function)。
上海海洋大学信息学院
根据式子(1),可以将(2)式写为:
1
P (V,H) Z ( ) exp
V T WH+a T H+bT V
(3)
我们希望最大化观测数据的似然函数P(v),P(v)可由式(3)求P(v,h)对h
• 降噪自动编码器(Denoising AutoEncoders);深度玻尔兹曼机( Deep Boltzmann Machine);卷积波尔兹曼机;
上海海洋大学信息学院
RBM (受限玻尔兹曼机)
上海海洋大学信息学院
基本概念
受限玻尔兹曼机
受限玻尔兹曼机(Restricted Boltzmann Machine,简称RBM)是由Hinton和Sejnowski 于1986年提出的一种生成式随机神经网络 (generative stochastic neural network),该网络由一些可见单元 (visible unit,对应可见变量,亦即数据 样本)和一些隐藏单元(hidden unit,对应 隐藏变量)构成,可见变量和隐藏变量都是 二元变量,亦即其状态取{0,1}。整个网络 是一个二部图,只有可见单元和隐藏单元 之间才会存在边,可见单元之间以及隐藏 单元之间都不会有边连接
2)sleep阶段: 生成过程,通过上层概念(Code)和向下的生成(Decoder)权重,生成 下层的状态,再利用认知(Encoder)权重产生一个抽象景象。利用初始 上层概念和新建抽象景象的残差,利用梯度下降修改层间向上的认知( Encoder)权重。也就是“如果梦中的景象不是我脑中的相应概念,改变 我的认知权重使得这种景象在我看来就是这个概念”。 上海海洋大学信息学院
上海海洋大学信息学院
深度学习
• 本质:通过构建多隐层的模型和海量训练数据(可为无标签数据 ),来学习更有用的特征,从而最终提升分类或预测的准确性。 “深度模型”是手段,“特征学习”是目的。
• 与浅层学习区别: 1)强调了模型结构的深度,通常有5-10多层的隐层节点; 2)明确突出了特征学习的重要性,通过逐层特征变换,将样本在原
• 这一限定使得相比一般玻尔兹曼机更高效的训练 算法成为可能,特别是基于梯度的对比分歧( contrastivedivergence)算法。
上海海洋大学信息学院
“预训练”方法——限制玻尔兹曼机(RBM)
隐含层
可视层
RBM网络共有2层,其中第一层称为可视层,一般来说是输入层,另一层 是隐含层,也就是我们一般指的特征提取层。 Wnm 是可视层与隐藏层之间
的边缘分布得到:
(4)
通过最大化P(v)来得到RBM的参数,最大化P(v)等同于最大化 log(P(v))=L(θ): (5)
上海海洋大学信息学院
限制玻尔兹曼机(RBM)
定义能量函数: 联合概率分布:
E(v, h) vibi hjcj vihjwij
i
j
i, j
p(v, h) 1 eE(v,h) Z
深度学习训练过程
AutoEncoder:
Class label
Decoder Encoder
Features
e.g.
Decoder Encoder
Features
Decoder Encoder
Input Image
上海海洋大学信息学院
深度学习训练过程
• 第二步:自顶向下的监督学习 这一步是在第一步学习获得各层参数进的基础
化,当初值是远离最优区域时易导致这一情况; (3)BP算法需要有标签数据来训练,但大部分数
据是无标签的;
上海海洋大学信息学院
深度学习训练过程
• 第一步:采用自下而上的无监督学习 1)逐层构建单层神经元。 2)每层采用wake-sleep算法进行调优。每次
仅调整一层,逐层调整。 这个过程可以看作是一个feature learning 的过程,是和传统神经网络区别最大的部 分。
• 2006年,加拿大多伦多大学教授、机器学习领 域的泰斗Geoffrey Hinton在《科学》上发表论文 提出深度学习主要观点:
• 1)多隐层的人工神经网络具有优异的特征学习 能力,学习得到的特征对数据有更本质的刻画, 从而有利于可视化或分类;
• 2)深度神经网络在训练上的难度,可以通过“ 逐层初始化”(layer-wise pre-training)来有效
RBM的学习目标-最大化似然(Maximizing likelihood)
RBM是一种基于能量(Energy-based)的模型,其可见变量v和隐藏变量 h的联合配置(joint configuration)的能量为:
(1)