深度学习介绍 PPT
深度学习简介
主要内容
神经网络
深度学习
介绍 常用方法
• Stacked Auto-Encoder • Convolutional Neural Network • Deep Belief Network
评价与应用
展望
神经网络
在机器学习与认知识别领域中,人工神经网络是一类模拟生物神经网络(中枢神经网 络,特别是大脑)的模型,用来预测(决策问题)或估计基于大量未知数据的函数模 型。人工神经网络一般呈现为相互关联的“神经元”相互交换信息的系统。在神经元 的连接中包含可根据经验调整的权重,使得神经网络可以自适应输入,并且拥有学习 能力。
三层网络,足够多的节点,合适的激活函数与权 重可以复现任意函数
deep models can give better approximation to nonlinear functions than shallow models.
深层的模型相较于浅层逼近效果更好
深度学习
深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,以更 少的参数与更深的结构来学习更有用的特征,从而最终提升分类或预测的准确性。所 以,“深度模型”是手段,“特征学习”是目的。区别于传统的浅层学习,深度学习 的不同在于:
1)强调了模型结构的深度,通常有5层、6层、甚至10多层的隐层节点;
2)明确突出了特征学习的重要性,也就是说,通过逐层特征变换,将样本在原空间 的特征表示变换到一个新特征空间,从而分类或预测更加容易。
由于含有很多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据 有更本质的刻画,从而有利于可视化或分类,深度学习算法逐渐成为分类算法的一个 大的分支。然而深度神经网络在训练上难度很大。为此,可以通过“逐层初始化” (layer-wise pre-train)来有效克服
作为机器学习方法的一种,神经网络算法可以用来处理一系列传统方法无法处理或处 理难度较大的问题,包括计算机视觉、语音识别方面等。
基本结构
神经网络的基本单元是神经元。通过对所有输入的加权求和与非线性映射得到该神经 元的输出(激活值)。
x1
x2
w1
.
w2
a
.
θ
.
xn
wn
b
神经元模型
f
(
x)
1
1 e
求误差梯度
求期望和实际 的偏差E
计算隐含层 单元误差
E满足要求?
Y
N
达到最大训练次数?
N Y
结束
BP算法流程
主要问题
主要问题
易陷入局部极小而得不到全局最优。 训练次数多使得学习效率低,收敛速度慢。 对于隐层和隐节点的个数选择,至今还没有一个具体的定论,缺乏理论指导。 训练时,学习新样本有遗忘旧样本的趋势
以使目标变量的真实值和预测值的距离最小
代价函数描述了网络输出与真实值之间的误差。 通过随机梯度下降的方法最小化代价函数以提高网络精度 可以在代价函数中引入其他约束以满足设定要求
x2 Y=F(X)
△
a
F(a)
BP算法
0
x1
反向传播与梯度下降
S型函数导数
开始
数据输入
权值学习
求隐含层和输出层 神经元输出
实验表明,在非凸优化问题上初始点的选择十分重要 无监督学习增加了一个深层结构的鲁棒性 预训练神经网络能够学习到数据的不同的高质量特征 单纯增加一个网络的深度,如果没有预训练进行处理,会提高陷于局部极小点的可能性
实验对比
当数据进行预处理后,神经网络迭代 稳定,分类误差保持在一个较低的水 平;而当数据没有进行预处理,随着 层数的增加分类误差迅速增大,代价 函数也保持在一个较高的水平。这是 由于预训练提取了图像特征,不容易 使得图像限于较高的局部极小点,即 更接近于全局的极小点,分类效果要 大大优于无预训练的网络。
反向传播算法:
网络的实际输出与期望输出之间的差值即为误差信号。误 差信号由输出端开始逐层向前传播,这是误差信号的反向传 播。在误差信号反向传播的过程中,网络的权值由误差反馈 进行调节,通过权值的不断修正使网络的实际输出更加接 近期望输出。
b1
输入
b2
隐含
输出
前馈网络结构说明代价函数源自在遇到回归问题时,指定代价函数
x
常用激活函数: 阈值函数 双向阈值函数 S型函数 双曲正切函数 高斯函数
神经网络按照拓扑结构,属于一神经元为节点,以及节点间有向连接为为边的一种图, 大体分为层状与网状两大类。
BP网络
前馈网络的逐层计算:
输入值从输入层单元通过连接权重加权激活逐层向前传播 经过隐层最后到达输出层得到输出。在信号的向前传递过 程中,网络的权值是固定不变的,每一层神经元的状态只 影响下一层神经元的状态。
传统的机器学习方法,在训练数据量到达一定规模后,算法的学习能力就饱和了,而 深度学习见不到底。
深度学习
Any continuous function from input to output can be implemented in a three-layer net, given sufficient number of hidden units and proper nonlinearities in activation function and weights.
预训练与梯度消失现象
由于早层的梯度是由后层的梯度项相乘得到,梯度会逐层衰减。而参数的随机初始化 意味着未训练前经过权重、偏置的计算后神经元早层丢失了大量的有用信息,从而导 致后层的网络学习率超过前层,BP算法收敛缓慢。当神经网络有很多层时,就会面临 不稳定的情况。
对网络的预训练可以较好地避免这种现象。这是因为:
常用改进方法
添加动量项 采用改进的梯度下降法 MBP/MFBP算法
深度学习
深度学习的基础架构来自于前馈神经网络与BP算法,构造多层节点通过最小化代价函 数的方法来提高分类精度。对于传统的ANN网络而言,由于多层网络训练的困难,实 际使用的多数是只含有一层隐层节点的浅层模型。然而,不同于浅层的神经网络算法, 深度学习更侧重于如何通过增加网络的深度,减小每层拟合的参数来提取出数据(尤 其是语音与图像数据)的高层特征信息,从而达到更高的测试性能与分类精度。深度 学习通过建立类似于人脑的分层模型结构,对输入数据逐级提取从底层到高层的特征, 从而能很好地建立从底层信号到高层语义的映射关系。