第卷第期农业水土工程研究进展课程论文V ol. Supp. . 2015年11月Paper of agricultural water and soil engineering progress subject Nov.2015 1支持向量机(SVM)在作物需水预测中的应用研究综述(1.中国农业大学水利与土木工程学院,北京,100083)摘要:水资源的合理配置对于社会经济的发展具有重要意义。
而在农业水资源的优化配置中常常需要提供精确的作物需水信息才能接下来进行水量的优化配置。
支持向量机是基于统计学习理论的新型机器学习方法,因为其出色的学习性能,已经成为当前机器学习界的研究热点。
但是目前对支持向量机的研究与应用大多集中在分类这一功能上,而在农业水资源配置中的应用又大多集中于预测径流量,本文系统介绍了支持向量机的理论与一些应用,并对支持向量机在作物需水预测的应用进行了展望。
关键词:作物需水预测;统计学习理论;支持向量机;中图分类号:S16 文献标志码:A 文章编号:0引言作物的需水预测是农业水资源优化配置的前提和基础之一。
但目前在解决数学模型中需要输入有预期的预测精度的数据时还是会遇到困难。
例如,当大量的用水者的用水需求作为优化模型的输入时,预测精度太低时优化结果可能会出现偏差。
此外,不确定性也存在于水的需求中,水需求受到一些影响因子和系统组成的影响(即人类活动,社会发展,可持续性要求以及政策法规),这不仅在不确定性因子间相互作用过程中使得问题更为复杂,也使得决策者在进行水资源分配过程中的风险增加。
所以,准确的预测对水资源的需求对制定有效的水资源系统相关规划很重要。
而提高需水量预测精度一直是国内外学术界研究难点和热点。
支持向量机(Support V ector Machine,SVM)是根据统计学理论提出的一种新的通用学习方法,该方法采用结构风险最小化准则(Structural Risk Minimization Principle),求解二次型寻优问题,从理论上寻求全局最优解,较好地兼顾了神经网络和灰色模型的优点[1][2],克服了人工神经网络结构依赖设计者经验的缺点,具有对未来样本的较好的泛化性能,较好解决了高维数、局部极小等问题[3]。
目前,SVM已成功的应用于分类、函数逼近和时间序列预测等方面,并在水科学领域中取得了一些成果,Liong[4]已将SVM应用于水文预报,周秀平等[5]已将SVM应用于径流预测,王景雷等[6]亦已将SVM应用于地下水位预报。
而需水预测问题本身也可以看作是一种对需水量及其影响因子间的复杂的非线性函数关系的逼近问题,但将SVM应用于作物需水预测的研究尚处于起步阶段。
本文简要介绍支持向量机并对其研究进展进行综述,最后对未来使用支持向量机预测作物需水量进行展望。
收稿日期:修订日期:1支持向量机1.1支持向量机国内外研究现状自 1970 年以来,V apnik[1,2]等人发展了一种新的学习机——支持向量机。
与现有的学习机包括神经网络,模糊学习机,遗传算法,人工智能等相比,它具有许多的优点:坚实的理论基础和较好的推广能力、强大的非线性处理能力和高维处理能力。
因此这种学习方法有着出色的学习性能,并在许多领域已得到成功应用,如人脸检测、手写体数字识别、文本自动分类、非线性回归建模与预测、优化控制数据压缩及时间序列预测等。
1998年,Alex J. Smola[7]系统地介绍了支持向量机回归问题的基本概念和求解算法。
Drucher[8]将支持向量机回归模型同基于特征空间的回归树和岭回归的集成回归技术bagging做了比较;Alessandro verri[9]将支持向量机回归模型同支持向量机分类模型和禁忌搜索(basic pursuit denoising)作了比较,并且给出了贝叶斯解释。
通过分析得出了如下结论:支持向量机回归模型由于不依赖于输入空间的维数,所以在高维中显示出了其优越性。
为了简化支持向量机,降低其复杂性,已有了一些研究成果。
比如,Burges[10]提出根据给定的支持向量机生成缩减的样本集,从而在给定的精度下简化支持向量机,但生成缩减样本集的过程也是一个优化过程,计算比较复杂;1998年Scholkopf[11]等人在目标函数中增加了参数v以控制支持向量的数目,称为v-SVR,证明了参数v与支持向量数目及误差之间的关系,但支持向量数目的减少是以增大误差为代价的。
Suykens等人[12]1999年提出的最小二乘支持向量机(LS-SVM)算法具有很高的学习效率,对大规模数据可采用共轭梯度法求解;田盛丰[13]等人提出了LS-SVM与序贯最优化算法(SMO)的混合算法。
1.2支持向量机在水资源领域研究现状2 农业水土工程研究进展课程论文 2015年支持向量机是机器学习中的研究热点。
它的优点也吸引了各领域的研究者们使用它来进行数据的处理。
就对需水量的预测这一方向来说,2008年张灵等[14]基于AGA 建立了珠海市的SVM 需水预测模型,经过与BP 神经网络方法的对比,发现AGA-SVM 模型具有更好的预测精度。
2009年迟道才等[15]基于最小二乘支持向量机(LS-SVM )对辽宁铁岭市的参考作物腾发量进行预测并对比BP 神经网络计算结果,同样得出LS-SVM 比BP模型有更好的预测性能。
2010年赵清等[16]使用支持向量机建立了三江平原井灌水稻月尺度的需水量回归预报模型,得到了较为满意的结果。
2014年X ,T ,Zeng 等[17]使用支持向量机的到了开孔河流域几种主要农作物全生育期的用水量目标,并在此基础上对灌区内的水资源进行优化配置,得出了较为合理的配置方式。
支持向量机在水资源配置中已经有所应用,对于作物需水也有所涉及,但是相对于神经网络方法应用来说要少很多。
1.3支持向量机基本原理1.3.1 支持向量机的基本思想支持向量机(SVM)是V apnik 等人运用统计学习理论对神经网络进行研究时,提出的一种以VC 维理论和结构风险最小原理为基础的通用学习机器方法。
概括地说, 支持向量机理论最初是为两类分类问题的处理而设计的,其基本思想是线性情况下,在原始模式空间寻找最优超平面;而非线性下,先通过非线性变换,将原始空间映射到一个高维的特征空间, 然后在这个特征空间中求取最优超平面,所谓最优超平面,就是超平面与最近点(支持向量机)之间的距离最大。
而所谓的支持向量即是在设给定的训练样本()(){}11=,,,,,,,1,,n l l i D x y x y x R y R i l ∈∈= 。
如果训练集中的所有向量均能被某超平面正确划分,并且距离平面最近的异类向量之间的距离最大(即边缘最大化),则该超平面为最优超平面。
其中距离超平面最近的异类向量被称为支持向量(Support V ector ,SV )。
1.3.2 支持向量机回归算法支持向量机回归算法源于线性分类, 可用于线性回归和非线性回归。
其思路与分类十分相似, 只需引入一个修正距离的ε为损失函数, 它可以确保对偶变量的稀疏性, 同时确保全局最小解的存在和可靠泛化界的优化[23]。
(1)设已知训练样本集,T=(x 1,y 1),(x 2,y 2),…,(x i , y i ),…,(x k ,y k ),其中x i ∈R n ,y i ∈R ,i =1,2,…,k 。
(2)选择适当的正数ε,c 和核函数。
核函数的选择必须满足Mercer 条件。
本文主要应用的核函数有:①多项式核函数K(x i ,x j )=(x i x j +1)d ,d =1,2,…;②径向基函数(RBF )核函数K(x i ,x j )=exp|r ‖x i -x j ‖2/2σ2|(r 为核函数系数);③指数核函数K(x i ,x j )=exp |r ‖x i-x j ‖/2σ2|(r 为核函数系数)。
对于高维数据的情况, 核函数与向量的维数无关,可以避免“维数灾”。
(3)构造并求解最优化问题。
从而得到:(4)构造决策函数:1.4三种新型的支持向量机 1.4.1 粒度支持向量机粒度支持向量机(granular support vector machines ,GSVM ) 的主要思想是通过常用的粒度划分方法构建粒度空间获得一系列信息粒,然后在每个信息粒上进行学习,最后通过聚合信息粒上的信息(或数据、规则知识、属性等)获得最终的支持向量机决策函数。
该学习机制通过数据的粒化可以将一个线性不可分问题转化为一系列线性可分问题,从而获得多个决策函数;该学习机制还使数据的泛化性能增强,即可在SVM 的训练中得到间隔更宽的超平面[18-20]。
1.4.2 模糊支持向量机为了克服噪声和野值点对支持向量机的影响,研究者们将模糊数学和支持向量机相结合,提出了模糊支持向量机(fuzzy support vector machines ,FSVM),主要用于处理训练样本中的噪声数据。
其主要思想是针对支持向量机对训练样本内的噪音和孤立点的敏感性,在训练样本集中增加一项隶属度,并赋予支持向量较高的隶属度,而非支持向量及噪声野值点赋予较小的隶属度,从而降低非支持向量、噪声和野值点对最优超平面的影响。
但FSVM 中也存在如何确定隶属度值的问题[21]。
1.4.3 孪生支持向量机在支持向量机的发展中,研究者们提出了一种二值数据的分类器——孪生支持向量机(又称双分界面支持向量机,twin support vectormachines ,TWSVMs ) 。
TWSVMs 在形式上类似于传统的支持向量机,不仅具有传统支持向量机的优点,而且对大规模数据具有更好的第期张帆:支持向量机(SVM)在作物需水预测中的应用研究综述 3处理能力。
TWSVMs为两个类各自得到一个分类平面,属于每个类的数据尽量围绕在与之相对应的分类平面周围,然后TWSVMs通过优化一对分类平面来构建分类超平面[22]。
也就是说,TWSVMs需要解决一对QP问题,而SVM则是解决一个QP问题,但是在TWSVMs中,其中一个类的数据要作为另一个QP问题的约束条件,反之亦然。
1.5支持向量机存在的一些问题统计学习理论系统地研究了机器学习问题,尤其是在有限样本情况下的统计学习问题。
这一理论框架下产生的SVM是一种通用的机器学习新方法,在理论和实际应用中表现出很多优越的性能。
但是在目前支持向量机的发展中,仍然有一些问题还没有解决,主要有以下几个方面:(1)、如何针对不同的问题选择不同的核函数仍然是一个悬而未决的问题;(2)、标准的SVM对噪声是不具有鲁棒性的,如何选择合适的目标函数以实现鲁棒性是至关重要的;(3)、支持向量机的本质是解一个二次规划问题,虽然有一些经典(如对偶方法、内点算法等),但当训练集规模很大时,这些算法面临着维数灾难问题。