当前位置:文档之家› 深度学习基础分享

深度学习基础分享

i i T {xi ( x0 , x1i ,, xn ) , yi }
8
i 1, 2,, m
输入样本集共计m个样本点,每个样本点有(n+1)维特征 1、拟合函数 h( x) (0 ,1 ,,n )( x0 , x1, xn )T 0 x0 1x1 n xn 2、目标函数:最小化误差平方和 1 m min J ( ) i 1 (h ( x i ) y i ) 2 +目标函数也可以添加正则化项 2 3、采用梯度下降法更新每个参数的值
Z3(3)
Z4(3) Z3(2) hW,b(x)
X4 X5
Z5(3) +1
Z6(3)
Layer L3
X6
+1
Layer L1
Layer L2
自编码器的结构
PA R T F I V E
0
5
限制玻尔兹曼机
限制玻尔兹曼机
h1 c1 h2 c2 h3 c3 ... hn cn wn×m b1 v1 b2 v2 b3 v3
14 引入训练样本的标签值
做整个网络的参数微调
Input Data X
Output Data X
Low-dimensional Representation Y
Decoder
无监督逐层学习得到深度网络的初始参数 结合训练样本的标签值可以进行微调(fine-tuning)使得网络参数最优化
PA R T
PA R T F O U R
0
4
自编码器
自编码器
X1 X2 X3
10
Z1(3) Z2(3)
(W , b) (W (1) , b(1) ,W (2) , b(2) )训练参数
z (2) W (1) x b (1) a (2) f ( z (2) ) z (3) W (2) a (2) b(2)
深度学习基础分享
李睿琪
目 录
CONTENT
01 | 深度学习简介
02 | 逐层学习
03 | 梯度下降法
04 | 自编码器
05 | 限制玻尔兹曼机
06 | 深度学习框架
07 | 硬件需求
PA R T O N E
0
1
深度学习简介
深度学习简介
• 深度学习中需要解决的问题
• • (1) 待训练的参数较多,需要大量的标记数据,容易导致过拟合 (2) 非凸优化导致局部极值问题
n
p(h j 1| v) (b j i 1 wij vi ) p(vi 1| h) (ci j 1 wij h j )
m
(1) (2)
可见部分结点值为实数变量
( x) 1/ (1 e x )
Sigmoid激活函数
补充说明
Encoder
0
6
深度学习框架
S I X
深度学习框架
• Caffe: C++ (加州伯克利分校)
• Theano: Python (蒙特利尔理工学院) -----> Blocks, Keras
16
• Torch: Lua (Facebook)
• Deeplearning4j: Java (创业公司Skymind) • DeepLearnToolbox: MATLAB
感谢您的聆听
输入 编码器 编码 解码器 重构 重构 误差
+1
Layer L1
Layer L2
自编码ห้องสมุดไป่ตู้的结构
目标函数:最小化重构误差
自编码器
X1 X2 X3
11
Z1(3) Z2(3)
Z1(2)
Z2(2)
(W , b) (W (1) , b(1) ,W (2) , b(2) )
网络参数的训练方法: 梯度下降法 反向传播算法(Back Propagation, BP): 用于计算参数的梯度
4

(3) 梯度弥散问题,隐藏层层数虽然多,但学习不到有效的信息
• 解决以上问题的策略
• • (1) 无监督的逐层学习,应用未标记数据构造自编码器:FNN、RBM (2) 减少待训练参数:CNN(卷积神经网络)
• 入门课程:UFLDL,unsupervised feature learning & deep learning
hW,b(x)
层次间的递推关系
Z1(2)
Z2(2)
Z3(3)
Z4(3) Z3(2)
X4 X5
hW ,b ( x) a (3) f ( z (3) ) f ( x) 1/ (1 e x )
Sigmoid激活函数
Z5(3) +1
Z6(3)
Layer L3
X6
hW ,b ( x) x
RBM的结构
13 训练参数
c wn×m b
目标函数:最小化重构误差 网络参数的训练方法: 梯度下降法 对比散度算法 (Contrastive Divergence, CD): 用于计算参数的梯度 默认结点取值为0/1 也可以推广到实数:
...
bm vm
层次间的递推关系(本质上属于多元概率分布, 网络结构为概率无向图模型)
PA R T T W O
0
2
逐层学习
逐层学习
• 逐层学习(预训练)原理图:
Encoder
6
Input Data X
Output Data X
Low-dimensional Representation Y
Decoder
PART THREE
0
3
梯度下降法
梯度下降法
以线性拟合函数回顾梯度下降法:训练参数 (0 ,1 ,,n )
j j
m J ( )= j i 1 (h ( x i ) y i ) x ij , j 0,1,, n j
求累加和体现了GD与SGD的区别
m i i i J ( ) ( h ( x ) y ) x 线性拟合函数中的梯度值为: j i 1 j
PART SEVEN
0
7
硬件需求
硬件需求
18
GPU:GTX 680 或者GTX 960 (价格优势); GTX 980 (表现最佳);GTX Titan (满足需要存储器的情况); GTX 970 (不支持卷积网络)。
CPU:每个GPU 2个线程;全套40 PCIe 线路和合适的PCIe 配件(和主板配套);时钟频率 > 2GHz;快速 缓冲储存区不做过多要求。 内存:使用异步mini-batch分配;时钟频率和内存时序不做过多要求;要求至少像GPU内存一样大的 CPU内存。 硬驱硬驱动/SSD:使用异步batch-file读取和压缩数据,主要针对图像或声音数据;如果不需要处理 带有高输入维度的32比特浮点数据组,普通硬驱即可满足计算要求。 PSU:GPU+CPU+(100-300)为所需的电源供应量;如果需要构建大的卷积网络,则需要配备能效级 别高的电源;确保有足够PCIe接头(6+8pin),足以支持未来可能新增的GPU的运行。 散热:如果运行单个GPU,需要在设置中设定「coolbits」flag;否则,更新BIOS和加快风扇转速就是 最便宜最简单的办法。 主板:选择PCIe 3.0,配备与未来预计所需GPU数量一样多的槽口(一个GPU需要两个槽口;每个系 统最多4个GPU)。
相关主题