一天搞懂深度学习
……
……
……
Hidden Layers
xK
yM
Output = Multi-class Layer Classifier
1-2 基本思想
Step 1: define a set Neural of function Network
Step 2: goodness of function
Step 3: pick the best function
Deep = Many hidden layers
19 layers
8 layers 7.3% 6.7%
16.4%
AlexNet (2012)
VGG (2014)
GoogleNet (2014)
1-2 基本思想
Deep = Many hidden layers
152 layers
101 layers
Special structure
3.57% 7.3% VGG (2014) 6.7%
16.4% AlexNet (2012)
GoogleNet (2014)
Residual Net (2015)
Taipei 101
1-2 基本思想
Neural Network
x1 x2 W1
b1
……
W2
b2 WL …… bL
RNN 循环神经网络
GAN 生成对抗网络
………………………………..
1-3 经典模型-CNN
• Some patterns are much smaller than the whole image A neuron does not have to see the whole image to discover the pattern. Connecting to small region with less parameters
深度学习
智慧融入街镇
目录 content
第一章
第二章 第三章
深度学习概述
深度学习应用研究 总结与展望
第一章
深度学习概述
• 历史与背景
• 基本思想
• 经典模型
1-1 历史与背景
假设我们要让程序判断下面的图像是 否为猫:
判断图像是否为猫的规则该怎么描述? 用枚举的方法,即为每张可能的图像对 应一个结果(是猫,不是猫),根据这 个对应规则进行判定。对于高度和宽度 都为256像素的黑白图像,如果每个像 素值的值是0-255之间的整数,根据排 列组合原理,所有可能的图像数量为:
Convolution
Max Pooling Can repeat many times Convolution Max Pooling
Flatten
1-3 经典模型-CNN
cat dog ……
Convolution
Max Pooling Fully Connected Feedforward network Can repeat many times Convolution Max Pooling Flatten
Step 3: pick the best function
NO
Overfitting!
Good Results on Testing Data? YES
NO
Good Results on Training Data?
Neural Network
1-3 经典模型
DNN 深层神经网络
CNN 卷积神经网络
1-3 经典模型-CNN
1-3 经典模型-CNN
CNN Modify image
Deep Dream
• Given a photo, machine adds what it sees ……
CNN exaggerates what it sees
1-3 经典模型-CNN
Deep Dream
• Given a photo, machine adds what it sees ……
Frequency
Image
Time
Spectrogram
1-3 经典模型-CNN
More Application: Text
?
第二章
深度学习应用
• 机器视觉
• 智能语音
• ……………….
2-1 机器视觉
(1)机器视觉——用机器的眼睛理解世界 机器视觉是指通过用计算机或图像处理器及相关设备来模拟人类视觉,以让机 器获取相关的视觉并加以理解,它是将图像转换成数字信号进行分析处理的技术。 机器视觉技术流程
Step 2: goodness of function
Step 3: pick the best function
1-2 基本思想
Gradient Descent
0.2 0.15
-0.1
0.05
……
0.3
0.2
……
gradient
1-2 基本思想
Deep Learning
YES
Step 1: define a set of function Step 2: goodness of function
1-3 经典模型-CNN
cat dog ……
Convolution
Max Pooling Fully Connected Feedforward network Can repeat many times Convolution Max Pooling Flatten
1-3 经典模型-CNN
Property 1 Some patterns are much smaller than the whole image Property 2 The same patterns appear in different regions. Property 3 Subsampling the pixels will not change the object
“beak” detector
1-3 经典模型-CNN
• The same patterns appear in different regions.
“upper-left beak” detector Do almost the same thing They can use the same set of parameters. “middle beak” detector
1-3 经典模型-CNN
Deep Style
A Neural Algorithm of Artistic Style
CNN content
CNN
style
CNN
?
1-3 经典模型-CNN
More Application: Speech
CNN
The filters move in the frequency direction.
1-1 历史与背景
1-1 历史与背景
1-1 历史与背景
1-1 历史与背景
1-2 基本思想
深度学习原理
Step 1: define a set Neural of function Network Step 2: goodness of function Step 3: pick the best function1-2 基本思想源自target“1 ”
x1 x2
……
…… Softmax …… Given a set of parameters …… ……
y1
y2 …… y10
Cross Entropy
1
0 …… ……
x256
……
0
1-2 基本思想
Step 1: define a set Neural of function Network
机 器 学 习 发 展 阶 段
1990-2012:走向成熟和应用
代表性的重要成果有: 1995:支持向量机(SVM) 1997:AdaBoost算法 1997:循环神经网络(RNN)和LSTM 2000:流形学习 2001:随机森林
2012:深度学习时代神经网络 卷土重来
在与SVM的竞争中,神经网络长时间内处于下风,直到 2012年局面才被改变。由于算法的改进以及大量训练样本 的支持,加上计算能力的进步,训练深层、复杂的神经网 络成为可能,它们在图像、语音识别等有挑战性的问题上 显示出明显的优势。
1-3 经典模型-CNN
Deep Style
• Given a photo, make its style like famous paintings
1-3 经典模型-CNN
Deep Style
• Given a photo, make its style like famous paintings
图像采集
目标提取
目标识别
目标分析
图像捕获 图像压缩 图像存储
图像预处理 图像分割
特征提取 目标分类 判断匹配
模型建立 行为识别
2-1 机器视觉
关键技术与应用
A)生物特征识别技术——安全领域应用广泛 生物特征识别技术是一种通过对生物特征识别和检测,对身伤实行鉴定的技术。从 统计意义上讲人类的指纹、虹膜等生理特征存在唯一性,可以作为鉴另用户身份 的依据。目前,生物特征识别技术主要用于身份识别,包括语音、指纹、人脸、 静脉,虹膜识别等。
2-1 机器视觉
关键技术与应用
B )光学字符文本识别一一智能物流的核心技术 光学字符文本识别技术( Opical Character Reconrition),是指计算机通过光学设备检 查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形 状翻泽成计算机文字的过程,从而完成计算机对文字的阅读。OCR技术具体到场 景就是通过扫描,将各类印刷体的文档证件(名片,银行卡、财务单据等)自动识 别录入电脑等终端,让大量信息的高效录入成为可能。