当前位置：文档之家› ELM极限学习机相关

ELM极限学习机相关

简单易学的机器学习算法——极限学习机(ELM)一、极限学习机的概念极限学习机(Extreme Learning Machine) ELM，是由黄广斌提出来的求解单隐层神经网络的算法。

ELM最大的特点是对于传统的神经网络，尤其是单隐层前馈神经网络(SLFNs)，在保证学习精度的前提下比传统的学习算法速度更快。

二、极限学习机的原理ELM是一种新型的快速学习算法，对于单隐层神经网络，ELM 可以随机初始化输入权重和偏置并得到相应的输出权重。

(选自黄广斌老师的PPT)对于一个单隐层神经网络(见Figure 1)，假设有个任意的样本，其中，。

对于一个有个隐层节点的单隐层神经网络可以表示为其中，为激活函数，为输入权重，为输出权重，是第个隐层单元的偏置。

表示和的内积。

单隐层神经网络学习的目标是使得输出的误差最小，可以表示为即存在，和，使得可以矩阵表示为其中，是隐层节点的输出，为输出权重，为期望输出。

，为了能够训练单隐层神经网络，我们希望得到，和，使得其中，，这等价于最小化损失函数传统的一些基于梯度下降法的算法，可以用来求解这样的问题，但是基本的基于梯度的学习算法需要在迭代的过程中调整所有参数。

而在ELM 算法中, 一旦输入权重和隐层的偏置被随机确定，隐层的输出矩阵就被唯一确定。

训练单隐层神经网络可以转化为求解一个线性系统。

并且输出权重可以被确定其中，是矩阵的Moore-Penrose广义逆。

且可证明求得的解的范数是最小的并且唯一。

三、实验我们使用《简单易学的机器学习算法——Logistic回归》中的实验数据。

原始数据集我们采用统计错误率的方式来评价实验的效果，其中错误率公式为：对于这样一个简单的问题，。

MATLAB代码主程序[plain]view plain copy1.%% 主函数，二分类问题2.3.%导入数据集4. A = load('testSet.txt');5.6.data = A(:,1:2);%特征bel = A(:,3);%标签8.9.[N,n] = size(data);10.11.L = 100;%隐层节点个数12.m = 2;%要分的类别数13.14.%--初始化权重和偏置矩阵15.W = rand(n,L)*2-1;16.b_1 = rand(1,L);17.ind = ones(N,1);18.b = b_1(ind,:);%扩充成N*L的矩阵19.20.tempH = data*W+b;21.H = g(tempH);%得到H22.23.%对输出做处理24.temp_T=zeros(N,m);25.for i = 1:N26. if label(i,:) == 027. temp_T(i,1) = 1;28. else29. temp_T(i,2) = 1;30. end31.end32.T = temp_T*2-1;33.34.outputWeight = pinv(H)*T;35.36.%--画出图形37.x_1 = data(:,1);38.x_2 = data(:,2);39.hold on40.for i = 1 : N41. if label(i,:) == 042. plot(x_1(i,:),x_2(i,:),'.g');43. else44. plot(x_1(i,:),x_2(i,:),'.r');45. end46.end47.48.output = H * outputWeight;49.%---计算错误率50.tempCorrect=0;51.for i = 1:N52. [maxNum,index] = max(output(i,:));53. index = index-1;54. if index == label(i,:);55. tempCorrect = tempCorrect+1;56. end57.end58.59.errorRate = 1-tempCorrect./N;激活函数[plain]view plain copy1.function [ H ] = g( X )2. H = 1 ./ (1 + exp(-X));3.endELM(Extreme Learning Machine)是一种新型神经网络算法，最早由Huang于2004年提出【Extreme learningmachine: a new learning scheme of feedforward neural networks】。

与SVM，传统神经网络相比，ELM的训练速度非常快，需要人工干扰较少，对于异质的数据集其泛化能力很强。

Huang在【Extreme learning machines: a survey，2011】这篇论文中对ELM进行了总结，包括最初的ELM算法和后来被发展延伸的ELM算法(比如在线序列ELM算法、增量ELM算法和集成ELM算法等)，里面的很多知识点值得学习。

ELM的原理从神经网络的结构上来看，ELM是一个简单的SLFN，SLFN示意图如下：该SLFN包括三层：输入层、隐含层和输出层（忽略输入层则为两层）。

其中隐含层包括L 个隐含神经元，一般情况下L远小于N，输出层的输出为m维的向量，对于二分类问题，显然该向量是一维的。

对于一个训练数据样本，忽略输入层和隐含层而只考虑隐含层神经元的输出和输出层，则神经网络的输出函数表达式为：ai和bi是隐含层节点的参数，表示第i个隐含层神经元和输出神经元之间的连接权值，即它是一个m维的权值向量。

公式里面的G是隐含层神经元的输出。

针对加法型隐含层节点，G为：其中，小g为激励函数，激励函数可以是线性函数，也可以是sigmoid函数；针对RBF型隐含层节点，G为：ai和bi分别表示了第i个径向基函数节点的中心和影响因子。

神经网络输出函数可以写成：，其中：如果神经网络能够无误差的预测训练样本，那么隐含层和输出层的权值是有解的，特别的，当L=N时，肯定有解。

但是实际问题中，L往往是远小于N的，那么求解权值向量的问题是无解的，即网络输出和实际值之间有误差，可以定义代价函数为：接下来如何求解最优的权值向量，使得损失函数J最小呢？针对这个问题ELM分两种情况解决：a.如果H是列满秩的，那么可以通过最小二乘找到最佳的权值，其解为：，其中：b.如果H是非列满秩的，则使用奇异值分解求解H的广义逆来计算最佳权值。

和BP使用梯度下降迭代更新所有层之间权值不同，ELM不调整SLFN的输入层和隐含层的权值，这些权值是随即设定的，因此ELM的训练速度非常快。

ELM注重于隐含层到输出层的权值的选取，其采用的方法是最小二乘。

ELM算法一般可以描述如下：在Huang的survey中描述了一种思想，该思想把SVM也看成了神经网络，该思想把神经网络的输入层到最后一层隐含层的部分或者SVM核函数映射的部分都看成了从输入空间到一个新的空间的转换，然后，BP会将误差反向传播更新权值使得误差最小化，而SVM则力求找到最大分界间隔的分界面，将新空间映射到输出空间，从这个角度来看，SVM确实可以看成是一种神经网络。

ELM最初算法就如上所述，从2004年至今，后来的学者对其进行了很多改进，主要包括对输入层和隐含层权值随即确定权值的优化、求解隐含层和输出层权值的优化（使得ELM更适应于噪声数据集）、核函数ELM以及加入了正则化项的损失函数（求解结构风险而不再是经验风险）、ELM和其他方法相结合等。

ELM为神经网络的结构设计提供了一个新的思路，使我们更好地理解神经网络，但是还有很多问题需要解决，比如隐含层节点个数的确定，正则化项的选择等等。

作为一个性能很好的机器，我们也可以将其应用到诸多交叉学科的应用中。

极限学习机（ELM）算法的matlab与C++实现极限学习机的原理极限学习机（Extreme learning machine，ELM）是单隐层神经网络的算法，其最大特点就是能在保证学习精度的前提下比传统的学习算法快。

其结构如下图所示：对于一个单隐层神经网络，假设有N个任意的样本(Xi,ti)，其中，X i=[x i1,x i2,⋯x in]T∈R n t i=[t i1,t i2,⋯t im]T∈R m一个有L个隐层节点的单隐层神经网络可以表示为:∑i=1Lβi h(W i⋅X j+b i)=o j j=1,⋯,N其中，h(x)为激活函数，W i=[w i1,w i2,⋯,w in]T为输入权重，βi为输出权重，bi是第个隐层单元的偏置。

Wi·Wj表示Wi和Wj的内积。

单隐层神经网络学习的目标是使得输出的误差最小，可以表示为:∑j=1N∥∥o j−t j∥∥=0即存在βi，Wi和bi使得∑i=1Lβi h(W i⋅X j+b i)=t j j=1,⋯,N可以矩阵表示为:Hβ=T其中，是H隐层节点的输出，β为输出权重，为T期望输出。

H(W1,⋯,W L,b1,⋯,b L,X1,⋯,X L)=⎡⎣⎢⎢h(W1⋅X1+b1)⋮h(W1⋅X N+b1)⋯⋯⋯h(W L⋅X1+b L)⋮h(W L⋅X N+b L)⎤⎦⎥⎥β=⎡⎣⎢⎢βT1⋮βTL⎤⎦⎥⎥T=⎡⎣⎢⎢T T1⋮T TN⎤⎦⎥⎥N×m传统的一些基于梯度下降法的算法，可以用来求解这样的问题，但是基本的基于梯度的学习算法需要在迭代的过程中调整所有参数。

而在ELM算法中, 一旦输入权重Wi和隐层的偏置bi被随机确定，隐层的输出矩阵就被唯一确定。

训练单隐层神经网络可以转化为求解一个线性系统Hβ=T。

并且输出权重β可以被确定。

β∧=H+T其中，H+是矩阵H的Moore-Penrose广义逆。

且可证明求得的解的范数是最小的并且唯一。

以一个简单的二分类为例，分别用matlab和c++实现。

matlab代码如下：traindata=load('traindata.txt');feature=traindata(:,1:2);%特征label=traindata(:,3);%标签X=feature;[N,n]=size(X);L=100;m=2;%二分类W=rand(n,L)*2-1;%权重-1到1b_1=rand(1,L);b=ones(N,1)*b_1;H=1./(1+exp(-X*W+b));temp_T=zeros(N,m);for i=1:Nif(label(i)==1)temp_T(i,1)=1;temp_T(i,2)=0;elsetemp_T(i,1)=0;temp_T(i,2)=1;endendT=temp_T*2-1;beta=pinv(H)*T;x_1=X(:,1);x_2=X(:,2);hold onfor i=1:Nif(label(i)==1)plot(x_1(i),x_2(i),'.g');elseplot(x_1(i),x_2(i),'.r');endc++代码如下，这里的矩阵运算采用Eigen工具包，最难的地方就是广义逆矩阵怎么求，参照网上的资源，代码如下：#include <iostream>#include <fstream>#include <vector>#include <string>#include <Eigen/Dense>#include <Eigen/SVD>using namespace std;using namespace Eigen;template<typename _Matrix_Type_>bool pseudoInverse(const _Matrix_Type_ &a, _Matrix_Type_ & result, double epsilon = std::numeric_limits<typename _Mat rix_Type_::Scalar>::epsilon()){Eigen::JacobiSVD< _Matrix_Type_ > svd = a.jacobiSvd(Eig en::ComputeThinU | Eigen::ComputeThinV);if (a.rows() < a.cols()){typename _Matrix_Type_::Scalar tolerance = epsilon * std::max(a.cols(), a.rows()) * svd.singularValues().arra y().abs()(0);result = svd.matrixV() * (svd.singularValues().arr ay().abs() > tolerance).select(svd.singularValues().array().inverse(), 0).matrix().asDiagonal() * svd.matrixU().adj oint();}// return false;else{typename _Matrix_Type_::Scalar tolerance = epsilon * std::max(a.cols(), a.rows()) * svd.singularValues().arra y().abs().maxCoeff();// Eigen::JacobiSVD< _Matrix_Type_ > svd = a.jacobi Svd(Eigen::ComputeThinU | Eigen::ComputeThinV);// typename _Matrix_Type_::Scalar tolerance = epsil on * std::max(a.cols(), a.rows()) * svd.singularValues().a rray().abs().maxCoeff();result = svd.matrixV() * ((svd.singularValues().arr ay().abs() > tolerance).select(svd.singularValues().array ().inverse(), 0)).matrix().asDiagonal() * svd.matrixU().ad joint();}return true;}int main(){ifstream trainfile;trainfile.open("traindata.txt");vector<vector<double>> traindata;vector<double> rowdata;double temp[3];while (!trainfile.eof()){for (int i = 0; i < 3;i++){trainfile >> temp[i];rowdata.push_back(temp[i]);}traindata.push_back(rowdata);rowdata.erase(rowdata.begin(), rowdata.end()); }trainfile.close();MatrixXd feature(traindata.size(), 2);VectorXd label(traindata.size());for (int i = 0; i < traindata.size(); i++){for (int j = 0; j < 3; j++){if (j < 2)feature(i,j) = traindata[i][j];elselabel(i) = traindata[i][j];}}int L = 50;//隐含层数int m = 2;//二分类int n = 2;//特征数int N = traindata.size();MatrixXd W,b_1,b,R,Tem,H;W = MatrixXd::Random(n, L);b_1 = (MatrixXd::Random(1, L) + MatrixXd::Ones(1, L)) / 2;b = MatrixXd::Ones(N, 1)*b_1;R = -feature*W+b;Tem = R.array().exp() + 1;H = Tem.array().inverse();MatrixXd temp_T,T;temp_T = MatrixXd::Zero(N, m);for (int i = 0; i < N;i++){if (label(i)==1){temp_T(i, 0) = 1;temp_T(i, 1) = 0;}else{temp_T(i, 0) = 0;temp_T(i, 1) = 1;}}T = temp_T * 2 - MatrixXd::Ones(N, m); MatrixXd result(L,N);pseudoInverse(H, result);MatrixXd beta = result*T;MatrixXd output = H*beta;for (int i = 0; i < N;i++)cout << T(i,0) << " ";cout << endl;for (int i = 0; i < N; i++)cout << output(i,0) << " ";return0;}。

e商务文档

ELM极限学习机相关

相关文档推荐：