当前位置:文档之家› ELM-Chinese-Brief(极限学习机)

ELM-Chinese-Brief(极限学习机)

1 Hao‐Qi Sun 摘要翻译自 G.‐B. Huang, “What are Extreme Learning Machines? Filling the Gap between Frank Rosenblatt's Dream and John von Neumann's Puzzle,”Cognitive Computation, vol. 7, pp. 263‐278, 2015.
2. 介绍
正如 Huang 等[6]指出:“一般来讲,‘超限’指超过传统人工学习方法的局限, 并向类脑学习靠拢。超限学习机的提出,是为了打破传统人工学习方法和生物学习机 制之间的屏障。‘超学习机’基于神经网络泛化理论,控制理论,矩阵理论和线性 系统理论,代表了一整套不需要调整隐层神经元的机器学习理论。”
定理 2 (分类能力[23])给定任何非常数分段连续函数作为激活函数,若调整隐 层参数可让单层前馈网络逼近任何连续的目标函数 f(x),那么这个拥有随机隐层映射 h(x)的单层前馈网络可以分割具有任何形状的不连通区域。
7. 单隐层前馈网络和多隐层前馈网络
在没有完全解决单隐层问题时在超限学习机中直接引入多隐层结构会比较困难。 所以在过去的十年中,大多数的超限学习机研究都注重“通用”单隐层前馈网络 (SLFNs)。
理论,控制理论,矩阵理论和线性系统理论。随机地生成隐层节点是“不需要调整隐 层神经元”的其中一种常用方法;与此同时,也有很多其他方法,例如核方法[6,23], 奇异值分解(SVD)和局部感受域[8]。我们相信超限学习机反映了某些生物学习机制 的实际情况。它的机器学习效能在 2004 年被确认[24],它的万能逼近性(对于“通用 单隐层前馈网络”,其隐层节点可以是由一些节点构成的子网络,并/或拥有基本上任 何类型的非线性分段连续激活函数的神经元(确切数学模型/公式/形状未知))在 2006 到 2008 年[5,25,26]被非常严格地证明。它的实际生物证据在 2011 到 2013 年 [27‐ 30] 接着出现。
数据压缩、特征学习、聚类、回归和分类是机器学习和机器智能的基础。超限学 习机的目标是在相同超限学习机架构中实现这五种基本学习操作(参见图 1)。
图 1 超限学习机的基础操作和角色。感谢匿名网络设计师提供此机器人图片。
4. 超限学习机理论 尽管在 1950 到 1990 年代,人们进行了一些随机 sigmoid 隐层神经元和/或径向基 函数神经元的尝试,除了 RVFL[34]以外,这些尝试并没有真正的成功和普及应用。原 因如下:
定理 1 (万能逼近能力[5,25,26])给定任何非常数分段连续函数作为激活函数,
若调整隐层参数可让单层前馈网络逼近任何连续的目标函数 f(x),那么
就可
以根据任何连续的概率分布生成,并且可以找到合适的输出权值 使
lim ∑

0以概率 1 的可能性成立。
6. 分类能力
另外,超限学习理论还证明了拥有随机隐层神经元的各类型网络的分类能力。这 种理论并没有被早期的工作研究。
5. 万能逼近能力
严格来讲,没有一种早期工作(比如 Baum[31],Schmidt 等[1]和 RVFL[2,32])在理 论上解释了随机隐层节点能否用于 sigmoid 或径向基函数网络上,自然就不包括由超限 学习理论覆盖的广泛神经网络类型。Lowe[35]的径向基函数网络并没有包括随机影响 因子,尽管其径向基函数节点的中心是随机产生的。人们还是需要根据不同应用来调 整其影响因子。换言之,这些网络[35]使用的是半随机的径向基函数节点。其详细分析 请参见 Huang[3]。
为了更清楚的理解其本质,我们从其哲学观,理论,网络结构,网络神经元类型, 学习目标和算法等角度分析超限学习机。
3. 超限学习机的信念、哲学观和目标
超限学习机的研究开始于我们对生物学习和神经网络泛化理论[14]的直观思考。进 一步来讲,超限学习机发展的基础是 Frank Rsenblatt 的多层“感知机”[9],支持向量 机[15],最小二乘支持向量机[16],傅里叶级数,线性系统,数值方法和矩阵理论等, 以及必要的衍生。
定义 [5,25,26] 给定一个隐层映射 h(x) = [h1(x), …, hL(x)],如果所有的隐层节点参数 都是根据一个任意连续的抽样分布生成的,那么该映射被称为超限学习随机特征映射。 其中,hi(x) = Gi(ai,bi,x), i=1,…,L(L 是隐层神经元数)。
不同的隐层节点允许有不同的激活函数 Gi。在大多数应用中,为了简单起见,对 所有隐层节点使用相同的激活函数,即对于所有 i, j=1,…L,Gi=Gj。
什么是超限学习机1
Guang‐Bin Huang
School of Electrical and Electronic Engineering, Nanyang Technological University, Singapore egbhuang@.sg
1. 摘要
近年来,超限学习机(Extreme Learning Machine, ELM)作为一种新兴的机器学习 方法,在全世界许多研究者的不断研究下,已经成为了一个热门研究方向。超限学习 机主要有以下四个特点。(1)超限学习理论探讨了一个 60 年来在神经网络、机器学 习和神经科学领域悬而未决的问题:在学习过程中隐层节点/神经元是否需要调整。与 常识和传统神经网络不同,该理论证明,对于大多数神经网络和学习算法(如隐层激 活为函数傅里叶级数,生物学习等),隐层节点/神经元不需要迭代式的调整,而早期 工作并没有提供随机隐层节点前馈神经网络的理论基础。(2)超限学习机既属于通用 单隐层前馈网络,又属于多隐层前馈网络(包括生物神经网络)。(3)超限学习机的 相同构架可用作特征学习,聚类,回归和(二类/多类)分类问题。(4)相比于超限 学习机,支持向量机(SVM)和最小二乘支持向量机(LS‐SVM)趋向于得到次优解。 支持向量机和最小二乘支持向量机也没考虑多层前馈网络中隐层的特征表征。
络,它包含很多随机连接,却能稳定的执行那些需要有完美电路才能执行的功能”?
在 2003 年以前,人们做了很多努力,但以上问题并没有解决。最终,我们发现问 题的关键“死结”在于:
1) Minsky 和 Papert[17]的反例说明隐层是必要的。 2) 早期的神经网络万能逼近理论(例如[21,22])也建立在学习过程中隐层神经元必须
1) 我们真的需要花费这么多人力物力来寻找这种需要人工调整隐层参数的学习算法, 并应用于不同的神经网络中吗?很明显,在生物大脑中没有调整参数的“小精灵”。
2) 我们真的需要不同的学习算法来使不同类型的神经网络可以有特征学习,聚类,回 归和分类能力吗?
3) 为什么生物大脑比那些集成人工学习算法的机器/电脑更加“高效”和“智能”? 4) 我们是否能解决 John von Neumann 的困惑[19,20]:为什么“一个不完美的神经网
超限学习机不仅面向“通用” 单隐层前馈网络,它还面向“通用” 多隐层前馈网 络,其中一个节点可以是由其它隐层节点组成的子网络[5,8,26]。单隐层超限学习机也 包括大多数类型的神经网络,包括 sigmoid 网络和径向基函数(RBF)网络(细节请参 见“‘通用’单隐层前馈网络(SLFNs)”章节)。
不断调整的假设之上。 3) 所以,自然可知,人工神经网络中的隐层神经元需要不断调整。
为了解决以上的问题,我们必须解决这些关键“死结”,即对于大多数类型的神 经网络(人工神经网络或人们未知其结构和神经模型的生物神经网络),隐层神经元 很重要,但无需调整。
我们在机器学习和生物学习领域中的这种信念和哲学观最终使我们提出一种新方 法,称为超限学习机(ELMs)及其相关理论。正如 Huang 等[6]强调,“超限”指超过 传统人工学习方法的局限,并向类脑学习靠拢。超限学习机是为了打破传统人工学习 方法和生物学习机制之间的屏障。超限学习机代表一整套机器学习方法(包括单隐层 前馈网络和多隐层前馈网络),它们不需要调整隐层神经元,同时符合神经网络泛化
7.1 “广义”单隐层前馈网络(SLFNs)
Schmidt 等[1]的研究注重 sigmoid 网络,而 Pao 等[32]的研究侧重 RVFL(使用 simoid 或径向基函数)。这两者都使用严格的标准单隐层结构,所以不是超限学习机 中研究的“通用”单隐层前馈网络(SLFNs)。Schmidt 等[1]提出的随机权值前馈网络 类 似 支 持 向 量 机 [15] , 在 隐 层 有 一 个 偏 移 量 来 吸 收 其 系 统 误 差 。 这 是 由 于 其 在 随 机 sigmoid 节点情况下的万能逼近性并没有被证明。
对比之下,超限学习机理论揭示了绝大多数使用非线性分段连续激活函数(包括 前期工作用到的 sigmoid 函数和径向基函数,也包括小波函数,傅里叶级数和生物神经 元)的隐层节点都可用于超限学习机,并且该网络有万能逼近能力[5,25,26]。不同于 RVFL 证明 [32] 中用到的半随机 sigmoid 和径向基函数节点,超限学习理论中的随机节 点是指所有的隐层节点都是随机生成,且与训练样本独立,例如对可加性的隐层节点, 输入权值 ai 和偏移 bi 都随机产生,对径向基函数网络,中心 ai 和影响因子 bi 都随机产 生,傅里叶级数和小波函数中的参数随机产生等。超限学习理论第一次揭示了在各种 类型的神经网络中,也包括在生物学习机制中,所以隐层节点/神经元的生成可以独立 于训练样本,也可以独立于其他节点[5,6,25,26]。
Baum[31]和 Schmidt 等[1]仅注重使用特定网络结构来处理经验性的、人工合成的 小型数据(可看作超限学习机的特例)。据我们所知,这些早期工作并没有理论分析 和严格理论证明。尽管简单地讲,Igelnik 和 Pao[32]在[4,8]中尝试证明了 RVFL 的万能逼 近能力。但是,其证明仅适用于使用半随机 sigmoid 和径向基函数隐层节点的情况,即 输入权值 ai 是随机生成的,而隐层节点偏移 bi 是根据训练样本 xi 和输入权值 ai 来计算 得到(详情请参见 Huang 等[4])。
相关主题