当前位置：文档之家› 深度置信网络BDN

深度置信网络BDN

深度学习训练过程
AutoEncoder:
Class label
Decode r
Encode r
Features
e.g.
Decode r
Encoder
Features
Decode r
Encoder
Input Image
深度学习训练过程
• 第二步：自顶向下的监督学习这一步是在第一步学习获得各层参数进的基础
深度神经网络的演化
神经网络
多层感知器
深度神经网络
在有了多层感知器之后为什么还需要提出深度学习？
深度神经网络
1）强调了模型结构的深度，通常有5-10多层的隐层节点；
2）明确突出了特征学习的重要性，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。
的数据上进行训练将会导致过拟合 • （2）局部极值问题 • 与梯和海量训练数据（可为无标签数据），来学习更有用的特征，从而最终提升分类或预测的准确性。 “深度模型”是手段，“特征学习”是目的。
• 与浅层学习区别： 1）强调了模型结构的深度，通常有5-10多层的隐层节点； 2）明确突出了特征学习的重要性，通过逐层特征变换，将样本在原
• 降噪自动编码器(Denoising AutoEncoders)；深度玻尔兹曼机（ Deep Boltzmann Machine）；卷积波尔兹曼机；
RBM （受限玻尔兹曼机）
基本概念
受限玻尔兹曼机
受限玻尔兹曼机(Restricted Boltzmann Machine,简称RBM)是由Hinton和 Sejnowski于1986年提出的一种生成式随机神经网络(generative stochastic neural network)，该网络由一些可见单元(visible unit，对应可见变量，亦即数据样本)和一些隐藏单元(hidden unit，对应隐藏变量)构成，可见变量和隐藏变量都是二元变量，亦即其状态取{0,1}。整个网络是一个二部图，只有可见单元和隐藏单元之间才会存在边，可见单元之间以及隐藏单元之间都不
深度学习训练过程
• wake-sleep算法:
1）wake阶段：认知过程，通过下层的输入特征（Input）和向上的认知（Encoder）权重产生每一层的抽象表示（Code），再通过当前的生成（Decoder）权重产生一个重建信息（Reconstruction），计算输入特征和重建信息残差，使用梯度下降修改层间的下行生成（Decoder）权重。也就是“如果现实跟我想象的不一样，改变我的生成权重使得我想象的东西变得与现实一样”。
• 这一限定使得相比一般玻尔兹曼机更高效的训练算法成为可能，特别是基于梯度的对比分歧（ contrastivedivergence）算法。
“预训练”方法——限制玻尔兹曼机（RBM）
隐含层
可视层
RBM网络共有2层，其中第一层称为可视层，一般来说是输入层，另一层是隐含层，也就是我们一般指的特征提取层。 W n m 是可视层与隐藏层之间
的权重矩阵， b 是可视节点的偏移量， c 是隐藏节点的偏移量。
“预训练”方法——限制玻尔兹曼机（RBM）
m
p(hj 1|v)( wjivi cj) i1
n
p(vi 1|h)( wjihj bi) j1
RBM的学习目标-最大化似然（类似于可能性）
RBM的学习目标-最大化似然(Maximizing likelihood)
• 神经网络的局限性：
1）比较容易过拟合，参数比较难调整，而且需要不少技巧；
2）训练速度比较慢，在层次比较少（小于等于3）的情况下效果并不比其它方法更优；
深度学习训练过程
• 不采用BP算法的原因（1）反馈调整时，梯度越来越稀疏，从顶层越往
下，误差校正信号越来越小；（2）收敛易至局部最小，由于是采用随机值初始
基本概念
受限玻尔兹曼机
• 正如名字所提示的那样，受限玻尔兹曼机是一种玻尔兹曼机的变体，但限定模型必须为二分图。
• 模型中包含对应输入参数的输入（可见）单元和对应训练结果的隐单元，图中的每条边必须连接一个可见单元和一个隐单元。
（与此相对，“无限制”玻尔兹曼机包含隐单元间的边，使之成为递归神经网络。）
（2）其中Z(θ)是归一化因子，也称为配分函数(partition function)。
根据式子(1)，可以将(2)式写为：
P (V ,H ) Z ( 1)e x pV T W H + a T H + b T V（3）
我们希望最大化观测数据的似然函数P(v)，P(v)可由式(3)求P(v,h)对h的
空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。
深度学习
• 好处：可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示。
深度学习 vs. 神经网络
相同点：二者均采用分层结构，系统包括输入层、隐层（多层）、输出层组成的多层网络，只有相邻层节点之间有连接，同一层以及跨层节点之间相互无连接，每一层可以看作是一个 logistic 回归模型。
化，当初值是远离最优区域时易导致这一情况；（3）BP算法需要有标签数据来训练，但大部分数
据是无标签的；
深度学习训练过程
• 第一步：采用自下而上的无监督学习 1）逐层构建单层神经元。 2）每层采用wake-sleep算法进行调优。每次
仅调整一层，逐层调整。这个过程可以看作是一个feature learning 的过程，是和传统神经网络区别最大的部分。
• 1）多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；
• 2）深度神经网络在训练上的难度，可以通过“ 逐层初始化”（layer-wise pre-training）来有效
克服，逐层初始化可通过无监督学习实现的。
基本概念
• 深度学习：深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示
—带有一层隐层节点（如SVM、Boosting），或没有隐层节点（如LR）的浅层模型
局限性：有限样本和计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛化能力受限。
基本概念
• 2006年，加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton在《科学》上发表论文提出深度学习主要观点：
上，在最顶的编码层添加一个分类器（例如罗杰斯特回归、SVM等），而后通过带标签数据的监督学习，利用梯度下降法去微调整个网络参数。
深度学习的第一步实质上是一个网络参数初始化过程。区别于传统神经网络初值随机初始化，深度学习模型是通过无监督学习输入数据的结构得到的，因而这个初值更接近全局最优，从而能够取得更好的效果。
RBM是一种基于能量(Energy-based)的模型，其可见变量v和隐藏变量h 的联合配置(joint configuration)的能量为：
（1）其中θ是RBM的参数{W, a, b}, W为可见单元和隐藏单元之间的边的权重，
b和a分别为可见单元和隐藏单元的偏置(bias)。有了v和h的联合配置的能量之后，我们就可以得到v和h的联合概率：
• 深度神经网络：含有多个隐层的神经网络
基本概念
• 深度学习：一种基于无监督特征学习和特征层次结构的学习方法
• 可能的的名称：
– 深度学习 – 特征学习 – 无监督特征学习
基本概念
• 深度学习的优势： • 能以更加紧凑简洁的方式来表达比浅层网络大得
多的函数集合 • 训练深度学习的困难： • （1）数据获取问题 • 考虑到深度网络具有强大的表达能力，在不充足
深度置信网络BDN
PPT模板下载：
目录
深度学习概述 RBM（受限玻尔兹曼机） DBN（深度信念网）总结与展望
深度学习概述
基本概念
浅层学习与深度学习
浅层学习是机器学习的第一次浪潮
✓ 人工神经网络（BP算法）
—虽被称作多层感知机，但实际是种只含有一层隐层节点的浅层模型
✓ SVM、Boosting、最大熵方法（如LR，Logistic Regression）
边缘分布得到:
通过最大化P(v)来得到RBM的参数，最大化P(v)等同于最大化 log(P(v))=L(θ)：
（4）
（5）
限制玻尔兹曼机（RBM）
定义能量函数：联合概率分布：
E (v ,h ) v ib ih jc jv ih jw ij
i
j
i,j
p(v,h) 1eE(v,h) Z
Z为归一化系数，其定义为：
Z eE(v,h)
v,h
输入层的边缘概率为：
p(v) 1 eE(v,h)
Zh
可以通过随机梯度下降(stochastic gradient descent)来最大化L(θ)，首先需要求得L(θ)对W的导数
经过简化可以得到：
（6）
（7）中后项等于
（7）（8）
可以通过随机梯度下降(stichastic gradient descent)来最大化L(θ)，首先需要求得L(θ)对W的导数
经过简化可以得到：
（6）（7）
（7）中后项等于
（8）
式子（7）中的前者比较好计算，只需要求vihj在全部数据集上的平均值即可，而后者涉及到v，h的全部2|v|+|h|种组合，计算量非常大(基本不可解)。
计算方法
网络学习的目的是最大可能的拟合输入数据，即最大化 p ( v ) 。

e商务文档

深度置信网络BDN

相关文档推荐：