当前位置：文档之家› 深度学习基础分享

深度学习基础分享

i i T {xi ( x0 , x1i ,, xn ) , yi }
8
i 1, 2,, m
输入样本集共计m个样本点，每个样本点有(n+1)维特征 1、拟合函数 h( x) (0 ,1 ,,n )( x0 , x1, xn )T 0 x0 1x1 n xn 2、目标函数：最小化误差平方和 1 m min J ( ) i 1 (h ( x i ) y i ) 2 +目标函数也可以添加正则化项 2 3、采用梯度下降法更新每个参数的值
Z3(3)
Z4(3) Z3(2) hW,b(x)
X4 X5
Z5(3) +1
Z6(3)
Layer L3
X6
+1
Layer L1
Layer L2
自编码器的结构
PA R T F I V E
0
5
限制玻尔兹曼机
限制玻尔兹曼机
h1 c1 h2 c2 h3 c3 ... hn cn wn×m b1 v1 b2 v2 b3 v3
14 引入训练样本的标签值
做整个网络的参数微调
Input Data X
Output Data X
Low-dimensional Representation Y
Decoder
无监督逐层学习得到深度网络的初始参数结合训练样本的标签值可以进行微调(fine-tuning)使得网络参数最优化
PA R T
PA R T F O U R
0
4
自编码器
自编码器
X1 X2 X3
10
Z1(3) Z2(3)
(W , b) (W (1) , b(1) ,W (2) , b(2) )训练参数
z (2) W (1) x b (1) a (2) f ( z (2) ) z (3) W (2) a (2) b(2)
深度学习基础分享
李睿琪
目录
CONTENT
01 | 深度学习简介
02 | 逐层学习
03 | 梯度下降法
04 | 自编码器
05 | 限制玻尔兹曼机
06 | 深度学习框架
07 | 硬件需求
PA R T O N E
0
1
深度学习简介
深度学习简介
• 深度学习中需要解决的问题
• • (1) 待训练的参数较多，需要大量的标记数据，容易导致过拟合 (2) 非凸优化导致局部极值问题
n
p(h j 1| v) (b j i 1 wij vi ) p(vi 1| h) (ci j 1 wij h j )
m
(1) (2)
可见部分结点值为实数变量
( x) 1/ (1 e x )
Sigmoid激活函数
补充说明
Encoder
0
6
深度学习框架
S I X
深度学习框架
• Caffe: C++ (加州伯克利分校)
• Theano: Python (蒙特利尔理工学院) -----> Blocks, Keras
16
• Torch: Lua (Facebook)
• Deeplearning4j: Java (创业公司Skymind) • DeepLearnToolbox: MATLAB
感谢您的聆听
输入编码器编码解码器重构重构误差
+1
Layer L1
Layer L2
自编码ห้องสมุดไป่ตู้的结构
目标函数：最小化重构误差
自编码器
X1 X2 X3
11
Z1(3) Z2(3)
Z1(2)
Z2(2)
(W , b) (W (1) , b(1) ,W (2) , b(2) )
网络参数的训练方法：梯度下降法反向传播算法(Back Propagation, BP)：用于计算参数的梯度
4
•
(3) 梯度弥散问题，隐藏层层数虽然多，但学习不到有效的信息
• 解决以上问题的策略
• • (1) 无监督的逐层学习，应用未标记数据构造自编码器：FNN、RBM (2) 减少待训练参数：CNN(卷积神经网络)
• 入门课程：UFLDL，unsupervised feature learning & deep learning
hW,b(x)
层次间的递推关系
Z1(2)
Z2(2)
Z3(3)
Z4(3) Z3(2)
X4 X5
hW ,b ( x) a (3) f ( z (3) ) f ( x) 1/ (1 e x )
Sigmoid激活函数
Z5(3) +1
Z6(3)
Layer L3
X6
hW ,b ( x) x
RBM的结构
13 训练参数
c wn×m b
目标函数：最小化重构误差网络参数的训练方法：梯度下降法对比散度算法 (Contrastive Divergence, CD)：用于计算参数的梯度默认结点取值为0/1 也可以推广到实数：
...
bm vm
层次间的递推关系（本质上属于多元概率分布，网络结构为概率无向图模型）
PA R T T W O
0
2
逐层学习
逐层学习
• 逐层学习（预训练）原理图：
Encoder
6
Input Data X
Output Data X
Low-dimensional Representation Y
Decoder
PART THREE
0
3
梯度下降法
梯度下降法
以线性拟合函数回顾梯度下降法：训练参数 (0 ,1 ,,n )
j j
m J ( )= j i 1 (h ( x i ) y i ) x ij , j 0,1,, n j
求累加和体现了GD与SGD的区别
m i i i J ( ) ( h ( x ) y ) x 线性拟合函数中的梯度值为： j i 1 j
PART SEVEN
0
7
硬件需求
硬件需求
18
GPU：GTX 680 或者GTX 960 (价格优势)； GTX 980 (表现最佳)；GTX Titan (满足需要存储器的情况)； GTX 970 (不支持卷积网络)。
CPU：每个GPU 2个线程；全套40 PCIe 线路和合适的PCIe 配件(和主板配套)；时钟频率 > 2GHz；快速缓冲储存区不做过多要求。内存：使用异步mini-batch分配；时钟频率和内存时序不做过多要求；要求至少像GPU内存一样大的 CPU内存。硬驱硬驱动/SSD：使用异步batch-file读取和压缩数据，主要针对图像或声音数据；如果不需要处理带有高输入维度的32比特浮点数据组，普通硬驱即可满足计算要求。 PSU：GPU+CPU+(100-300）为所需的电源供应量；如果需要构建大的卷积网络，则需要配备能效级别高的电源；确保有足够PCIe接头（6+8pin），足以支持未来可能新增的GPU的运行。散热：如果运行单个GPU，需要在设置中设定「coolbits」flag；否则，更新BIOS和加快风扇转速就是最便宜最简单的办法。主板：选择PCIe 3.0，配备与未来预计所需GPU数量一样多的槽口（一个GPU需要两个槽口；每个系统最多4个GPU）。

e商务文档

深度学习基础分享

相关文档推荐：