当前位置:文档之家› 基于神经网络的深度学习

基于神经网络的深度学习


稀疏编码的训练阶段 稀疏编码分为两个部分:训练阶段和编码阶段。
训练阶段:给定一系列的样本图片[x1,x2, …],我们 需要学习得到一组基[Φ1,Φ2, …],也就是字典。 训练过程就是一个重复迭代的过程,通过交替的更 改a和Φ使得下面这个目标函数最小。
训练(Training)阶段 每次迭代分两步:
由于第一次计算电脑没有经验,所以结果是随机的.一般我们设定是正确的,因为 我们输入张三的身体数据啊.
神经网络
1,神经网络的发展 2,神经网络的原理(语音/图像识别) 3,Deep Learnning的训练过程 4,Deep Learning的常用模型或者方法(需要大家 做的部分)
1,神经网络的发展
(1)固定字典Φ[k],然后调整a[k],使得上式, 即目标函数最小(即解LASSO问题)。
(2)然后固定住a [k],调整Φ[k],使得上式,即 目标函数最小。 不断迭代,直至收敛。这样就可以得到一组可以良 好表示这一系列样本图片X的基Φ[k],也就是字典。
Deep Learning的常用模型或者方法--AutoEncoder自 动编码器
Deep Learning最简单的一种方法是利用人工神经网络的 特点,人工神经网络(ANN)本身就是具有层次结构的系 统,如果给定一个神经网络,我们假设其输出与输入是相 同的,然后训练调整其参数,得到每一层中的权重。自然 地,我们就得到了输入I的几种不同表示(每一层代表一 种表示),这些表示就是特征。自动编码器就是一种尽可 能复现输入信号的神经网络。为了实现这种复现,自动编 码器就必须捕捉可以代表输入数据的最重要的因素,就像 PCA那样,找到可以代表原信息的主要成分。
一.启蒙时期。开始于1890年美国著名心理学家W.James关于人脑结构与功能的研究,结束 于1969年Minsky和Papert发表《感知器》(Perceptron)一书。
二.低潮时期。开始于1969年,因为Minsky和Papert指出单层系统的局限性,并表达了对 多层系统的悲观看法,在20世纪70年代人们对ANN的研究兴趣减弱,直到1982年Hopfield 发表著名的文章《神经网络和物理系统》(NeuralNetworkandPhysicalSystem)。
AutoEncoder自动编码器
2)通过编码器产生特征,然后训练下一层,这样逐层训 练
第1)步得到第一层的code,重构误差最小让我们相信这 个code就是原输入信号的良好表达了,或者牵强点说,它 和原信号是一模一样的,那第二层和第一层的训练方式就 没有差别了,我们将第一层输出的code当成第二层的输入 信号,同样最小化重构误差,就会得到第二层的参数,并 且得到第二层输入的code,也就是原输入信息的第二个表 达了。其他层就同样的方法炮制就行了。
传统的神经网络就是采用迭代的算法来训练整个网络,随机设定 初值,计算当前网络的输出,然后根据当前输出和label之间的差去 改变前面各层的参数,直到收敛(整体是一个梯度下降法)。而 deeplearning整体上是一个layer-wise的训练机制。这样做的原因是 因为,如果采用backpropagation的机制,对于一个deepnetwork(7 层以上),残差传播到最前面的层已经变得太小,出现所谓的 gradientdiffusion(梯度扩散)。这个问题我们接下来讨论。
稀疏编码基本概念
“稀疏性”含义:只有很少的几个非零元素或只有 很少的几个远大于零的元素。
要求系数 ai具有稀疏性即对于一组输入向量, 我们只想有尽可能少的几个系数远大于零。
稀疏编码基本概念 稀疏编码算法是一种无监督学习方法,它用来寻 找一组“超完备”基向量(基向量的个数比输入 向量的维数要大)来更高效地表示样本数据。其 目的就是找到一组基向量 ϕi,使得我们能将输入 向量X表示为这些基向量的线性组合。 超完备基的好处是它们能更有效地找出隐含在输 入数据内部的结构与模式。然而,对于超完备基 来说,系数ai不再由输入向量唯一确定。因此, 在稀疏编码算法中,我们另加了一个评判标准 “稀疏性”来解决因超完备而导致的退化 (degeneracy)问题。
AutoEncoder自动编码器
3)有监督微调
经过以上几步得到多层原始输入的不同的表达, 然后在AutoEncoder的最顶的编码层添加一个分类 器,通过标准的多层神经网络的监督训练方法去训 练,将最后层的特征code输入到最后的分类器,通 过有标签样本,通过监督学习进行微调,微调分为 只调整分类器和调整个系统。一旦监督训练完成, 这个网络就可以用来分类了。
3,Deep Learnning的训练过程 传统的神经网络就是采用迭代的算法来训练整个网 络,随机设定初值,计算当前网络的输出,然后根 据当前输出和label之间的差去改变前面各层的参数, 直到收敛(整体是一个梯度下降法)。而 deeplearning整体上是一个layer-wise的训练机制。 这样做的原因是因为,如果采用backpropagation 的机制,对于一个deepnetwork(7层以上),残 差传播到最前面的层已经变得太小,出现所谓的 gradientdiffusion(梯度扩散)。
深度学习 DeepLearning
组员:
先从一个例子讲起
X(1)面部特征 X(2)代表人的身高特征 X(3)代表人的体形特征 X(4)代表人的声音特征 W(1)W(2)W(3)W(4)分别代表四种特征的链接权重 Y=X(1)*W(1)+X(2)*W(2)+X(3)*W(3)+X(4)*W(4) (Y要和一个门槛值(设为Θ)进行比较) 如果Y>Q,那么电脑就判定这个人是张三;否则判定不是 张三.

因此,上述式子可以用来表达输入I,这个过程 也是自动学习得到的。如果我们在上式上加上L1 的Regularity限制,可得到: Min|I–O|+u×(|a1|+|a2|+…+|an|)
以上这种重新表达输入I的方法就被成为稀疏 编码,通俗的说,就是将一个信号表示为一组基的 线性组合,而且要求用尽可能少的几个基就可以将 信号表示出来。
2,神经网络的原理※
2,神经网络的原理※
科学家们还发现,不 仅图像存在这个规律, 声音也存在。他们从 未标注的声音中发现 了20种基本的声音结 构,其余的声音可以 由这20种基本结构合 成。
2,神经网络的原理※
传统神经网络的训练方法为什么不能用在深度神经网BP算法作为传统训 练多层网络的典型算法,实际上对仅含几层网络,该训练方法就已经很 不理想。深度结构(涉及多个非线性处理单元层)非凸目标代价函数中 普遍存在的局部最小是训练困难的主要来源。 BP算法存在的问题: (1)梯度越来越稀疏:从顶层越往下,误差校正信号越来越小; (2)收敛到局部最小值:尤其是从远离最优区域开始的时候(随机值初始 化会导致这种情况的发生); (3)一般,我们只能用有标签的数据来训练:但大部分的数据是没标签的, 而大脑可以从没有标签的的数据中学习;
O= a1×Φ1+a2×Φ2+…+an×Φn,Φi是基,ai是系数, 我们可以得到这样一个优化问题: Min|I–O| 其中I表示输入,O表示输出)
通过求解这个最优化式子,我们可以求得系数ai和 基Φi,这些系数和基就是输入X的另外一种近似表达。 k 即可得:
X ii
i 1
稀疏编码基本概念
Sum_k(a[k]*S[k])-->T,其中 a[k]是在叠加碎片S[k]时的 权重系数。
稀疏编码: 1)选择一组S[k],然后调整a[k], 使得Sum_k(a[k]*S[k])最接近T。 2)固定住a[k],在400个碎片中, 选择其它更合适的碎片S’[k],替 代原先的S[k],使得 Sum_k(a[k]*S'[k])最接近T。
三.复兴时期。开始于Hopfield的突破性研究论文,结束于1986年Rumelhart和Mcclelland 领导的研究小组发表的《并行分布式处理》(ParallelDistributedProcessing)一书。 四.第一次浪潮。1980年代末期,用于人工神经网络的反向传播算法(也叫 BackPropagation算法或者BP算法)的发明,给机器学习带来了希望,掀起了基于统计模 型的机器学习热潮。---浅层学习 五.第二次浪潮。2006年,加拿大多伦多大学教授、机器学习领域泰斗—— GeoffreyHinton和他的学生RuslanSalakhutdinov在顶尖学术刊物《科学》上发表了一篇 文章,开启了深度学习在学术界和工业界的浪潮。---深度学习
①只调整分类器
②调整整个系统
Autoencoder是多层神经网络,其中输入层 和输出层表示相同的含义,具有相同的节 点数,Autoencode学习的是一个输入输出 相同的“恒等函数”。
简单来说Autoencoder是一个压缩编码器
稀疏编码(Sparse Coding)基本概念
如果我们把输出必须和输入相等的限制放松,同时利 用线性代数中基的概念,即令:
AutoEncoder自动编码器
具体过程简单的说明如下: 1)给定无标签数据,用非监督学习学习特征; 2)通过编码器产生特征,然后训练下一层,这样 逐层训练; 3)有监督微调。
AutoEncoder自动编码器 1)给定无标签数据,用非监督学习学习特征
有标签
无标签
在我们之前的神经网络中,输入的样本是有标签的,即 (input, target),根据当前输出和target(label)之间 的差去改变前面各层的参数,直到收敛。但现在只有无标签 数据,误差?
2,神经网络的原理
(1)单个神经元细胞解剖 图
(2)神经元结构模型
(3)典型的人工神 经网络
元、辅音在多维 空间中的示意图
对元音和辅音模式分类
元辅音模式的模式分布图
2,神经网络的原理
视觉神经
1981年的诺贝尔医学奖,颁发给了DavidHubel(出生于加拿大的美国 神经生物学家)和TorstenWiesel,以及RogerSperry。前两位的主要 贡献,是“发现了视觉系统的信息处理”:可视皮层是分级的。
相关主题