当前位置:文档之家› 4-人工神经网络

4-人工神经网络

在一定的条件下,对于给定的全部训练数据使E最小化的假 设也就是H中最可能的假设。
2021/2/23
16
1.可视化假设空间(1/2)
图4-4不同假设的误差
2021/2/23
✓按照E的定义, 对于线性单元, 这个误差曲面必 然是具有单一全 局最小值的抛物 面。
✓具体的抛物面形 状依赖于具体的 训练样例集合。
5
4.4感知器(1/2)
一种类型的ANN系统是以感知器的单元为基础的。如图4-2所示。感 知器以一个实数值向量作为输入,计算这些输入的线性组合,如果结果大 于某个阈值,就输出1,否则输出一1。
图4-2感知器
2021/2/23
6
4.4感知器(2/2)
还可以把感知器函数写为:
o ( x ) s g n ( w x )
2021/2/23
27
4.4.4小结
迭代学习感知器权值的两个相似的算法间的关键差异是:
感知器训练法则根据阈值化的感知器输出的误差更新权值,
增量法则根据输入的非阈值化线性组合的误差来更新权。
这两个训练法则间的差异还反映在不同的收敛特性上。
感知器训练法则经过有限次的迭代收敛到一个能理想分类训 练数据的假设,学习过程收敛快,且与初值无关。但条件是 训练样例线性可分。
把delta训练法则理解为训练一个无阈值的感知器,也就
是一个线性单元,它的 输出o 如下 : o (x)w x
(感知器: o ( x ) s g )n ( w x )
为了推导线性单元的权值学习法则,先指定一个度量标准 来衡量假设相对于训练样例的训练误差。一个常用的特别方
便的度量标准为: E(w)12dD(tdod)2
度下降大的步长(对所有样例误差的累加)。 如极一果小个值不E中同w ,的(有)因误多为差个它曲局使面部用有极不效小同 下值的 降,,随它机E 依,的d(靠梯而w )这度不些下是梯降度有的时平可, 均能对E 来避于(近免每w 似陷个)对入训整这练个些样训局例练部沿
集合的梯度。这些曲面通常有不同的局部极小值,这使得下降过程不大可 能陷入任何一个局部极小值。 在实践中,无论是随机的还是标准的梯度下降方法都被广泛应用。
第四章人工神经网络
4.1 4.2 神经网络表示 4.3 适合神经网络学习的问题 4.4 感知器 4.5 多层网络和反向传播算法 4.6 反向传播算法的说明 4.7* 举例:人脸识别 4.8* 人工神经网络的高级课题 小结
2021/2/23
1
4.1 简介(1/2)
人工神经网络(ANN)的研究在一定程度上受到了生物学的启发,因为生 物的学习系统(如大脑)是由相互连接的神经元(neuron)组成的异常复杂的 网络。由于ANN只是在一定程度上受生物神经系统的启发,所以ANN并 未模拟生物神经系统中的很多复杂特征。
2021/2/23
3
4.2 神经网络表示例:ALVINN系统
2021/2/23
4
4.3适合神经网络学习的问题
实例是用很多“属性一值”对表示的:要学习的目标函数是 定义在可以用向量描述的实例之上的,向量由预先定义的特 征组成。
目标函数的输出可能是离散值、实数值或者由若干实数属性 或离散属性组成的向量。
可以通过计算E相对向量 的每个w 分量的导数来得到沿误差曲 面最陡峭下降的这个方向。这个向量导数被称为E对于 的w 梯度
(gradient),记作:
w
既然梯度确定了E最陡峭上升的方向,那么梯度下降的训练法则 是:
其中:
2021/2/23
19
2.梯度下降法则的推导(2/4)
训练法则也可以写成它的分量形式:
训练数据可能包含错误:ANN学习算法对于训练数据中的错 误有非常好的健壮性。
可容忍长时间的训练:网络训练算法通常比像决策树学习这 样的算法需要更长的训练时间。
人类能否理解学到的目标函数是不重要的:神经网络方法学 习到的权值经常是人类难以解释的。学到的神经网络比学到 的规则难以传达给人类。
2021/2/23
2021/2/23
2
4.1 简介(2/2)
神经网络学习方法对于逼近实数值、离散值或向量值的目标 函数提供了一种健壮性很强的方法。
在模式识别领域,如学习解释复杂的现实世界中的传感器数 据,人工神经网络是目前知道的最有效的学习方法。比如, 学习识别手写字符、学习识别口语等。
常用的反向传播算法,使用梯度下降来调节网络参数,以最 佳拟合友输入输出对组成的训练数据,在很多实际的问题中 取得了惊人的成功。
3.梯度下降的随机近似(3/3)(随机梯度下降)
标准的梯度下降和随机的梯度下降之间的关键区别是:
标准的梯度下降是在权值更新前对所有样例汇总误差,而随机梯度下降的 权值是通过考查每个训练实例来更新的。
在标准的梯度下降中,权值更新的每一步对多个样例求和,这需要更多的 计算。另一方面,标准的梯度下降对于每一次权值更新经常使用比随机梯
初始化每个△wi为0 对于训练样例training-examples中的每个<x,t>做:
把实例x输人到此单元,计算输出o
对于线性单元的每个权wi做
△wi△wi+ (t-o)xi
对于线性单元的每个权wi做:
2021/2/23
wi wi wi
23
3.梯度下降的随机近似(1/3)(随机梯度下降)
梯度下降是一种重要的通用学习范型。它是搜索庞大假设空 间或无限假设空间的一种策略,它可应用于满足以下条件的 任何情况:
2021/2/23
10
4.4.1感知器的表征能力(4/4)
AND和OR可被看作m- of-n函数的特例: 也就是要使函数输出为 真,那么感知器的n个输入中至少m个必须为真: OR函数对应于m = 1 AND函数对应于m = n。
任意m-of-n函数可以很容易地用感知器表示,只要设置所有输入 的权为同样的值(如0.5),然后据此恰当地设置阈值。
样例)。x1和x2是感知器的输入。“+”表示正例,“一”表示反例。
2021/2/23
9
4.4.1感知器的表征能力(3/4)
单独的感知器可以用来表示很多布尔函数。 假定用1(真)和一1(假)表示布尔值,那么使用一个有两输
入的感知器: 实现与函数(AND)的一种方法是设置权w0=一0.8,并且
wl= w2=0.5。 实现或函数(OR),那么只要改变它的y阈值w0=一0.3}
ANN是由一系列简单的单元相互密集连接构成的:
每一个单元有一定数量的实值输入(可能是其他单元的输出)
每一个单元产生单一的实数值输出(可能成为其他很多单元的输入)。
ANN领域的研究者分为两个团体:
一个团体的目标是使用ANN研究和模拟生物学习过程(本身)
另一个团体的目标是获得高效的机器学习算法(应用),不管这种算 法是否反映了生物过程。
17
1.可视化假设空间(2/2)
确定一个使E最小化的权向量: 梯度下降搜索从一个任意的初始权向量开始 然后以很小的步伐反复修改这个向量:
每一步都沿误差曲面产生最陡峭下降的方向修改权向量 (参见图4-4), 继续这个过程,直到得到全局的最小误差点。
2021/2/23
18
2.梯度下降法则的推导(1/4)
(1)假设空间包含连续参数化的假设,例如,一个线性单 元的权值;
(2)误差对于这些假设的参数可微。
应用梯度下降的主要实践问题是:
(1)有时收敛过程可能非常慢(它可能需要数千步的梯度下 降);
(2)如果在误差曲面上有多个局部极小值,那么不能保证 这个过程会找到全局最小值。
2021/2/23
24
3.梯度下降的随机近似(2/3)(随机梯度下降)
wx0
某些正反样例集合不可能被任一超平面分割。那些可以被 分割的称为线性可分(linearly separable)样例集合。
2021/2/23
8
4.4.1感知器的表征能力(2/4)
图4-3两输入感知器表示的决策面
a)一组训练样例和一个能正确分类这些样例的感知器决策面。
b)一组非线性可分的训练样例(也就是不能用任一直线正确分类的
其中x是输入值向量,t是目标输出值,是学习速率(例如 0.05) 初始化每个wi为某个小的随机值 遇到终止条件之前,做以下操作:
初始化每个△wi为0 对于训练样例training-examples中的每个<x,t>做:
把实例x输人到此单元,计算输出o 对于线性单元的每个权wi
wiwi+ (t-o)xi
其中:
学习一个感知器意味着选择权w0,……wn的值。所以感知 器学习要考虑的候选假设空间H就是所有可能的实数值权向量
的集合。
H w |w R n 1
2021/2/23
7
4.4.1感知器的表征能力(1/4)
可以把感知器看作是n维实例空间(即点空间)中的超平面 决策面: 对于超平面一侧的实例,感知器输出1,对于另一侧的实 例输出一1,这个决策超平面方程是:
delta法则的关键思想是使用梯度下降来搜索可能的权向 量的假设空间,以找到最佳拟合训练样例的权向量。
delta法则为反向传播算法提供了基础。且对于包含多种 不同类型的连续参数化假设的假设空间,梯度下降是必 须遍历这样的假设空间的所有学习算法的基础。
2021/2/23
15
4.4.3梯度下降和delta法则(2/2)
△wi(t-o)xi
▪ 随梯度下降为每个单独的训练样例d定义不同的误差函数:
Ed(w)12(tdod)2
2021/2/23
25
训练线性单元的梯度下降算法(随机梯度下降)
GRADIENT-DESCENT(training-examples,) training-examples中每一个训练样例形式为序偶<x,t>,
相关主题