ARIMA与SVM混合模型在害虫预测中的应用向昌盛1,周子英2,武丽娜2(1. 湖南农业大学东方科技学院,长沙410128;2. 湖南农业大学资源环境学院,长沙410128)摘要:害虫发生是一种复杂且难以预测的时间序列数据,传统预测方法都是基于线性模型,忽略了害虫发生的非线性因子,导致预测精度不高。
本研究用ARIMA模型对昆虫发生时间序列进行线性建模,然后采用SVM对昆虫发生时间序列的非线性部分进行建模,最后得到两种模型的综合预测结果。
将组合模型应用到松毛虫发生面积的预测,实验结果表明该组合模型相对于单模型的预测具有更高的精度,发挥了2种模型各自的优势。
关键词:支持向量机;害虫;预测;时间序列中图分类号:S763.3 S431 文献标识码: AApplication in Pest Forecasting Based on ARIMA and SVM Hybrid ModelXiang Chang-sheng1, Zhou Zi-ying2, Wu Li-na2(1. College of Orient Science & Technology, Hunan Agricultural University, Changsha, Hunan, 410128;2. College of Resources & Environment, Hunan Agricultural University, Changsha, Hunan, 410128) Abstract:The data of pest occurrence is complicated and unpredictable time series, the nonlinear factor of pest time series often overlooked in tradition prediction. A new hybrid forecasting model based on ARIMA and SVM is proposed in this paper, ARIMA model was used to predict the linear component while SVM model for the nonlinear residual component of pest time series, then the hybrid forecasting results is obtained. The prediction performances of the method are tested on Dendrolimus punctatus occurrence, the results show that the hybrid model, which takes advantage of the unique strength of the two models in linear and nonlinear modeling, has better accuracy than the single model.Key words: support vector machines; pest; forecast; time series1 前言害虫预测预报是害虫综合防治的重要组成部分,是一项监测害虫未来种群变动趋势的重要工作,也是有效地防治和控制害虫发生发展的依据,它根据害虫种群过去和现在的变化规律、调查取样和气象预报等资料,借助统计学原理和方法,建立数学模型,分析害虫发生资料,研究其变化规律以及预报因子与预报对象之间关系,然后进行预报。
近年来许多学者应用时间序列分析方法研究害虫种群动态变化并进行预测分析[],最具代表性的时间分析方法为差分自回归移动平均(autoregressive integrating moving average,ARIMA),ARIMA模型极具弹性,融合了时间序列分析和回归分析的优点,由于害虫的发生是受到多种因素的影响的,是一种非常复杂的自然现象,其发生在空间上既有全域性又有区域性,在时间上又表现出无序的不稳定性、有序的规律性和周期性,这样基于线性模型的ARIMA无法捕捉害虫发生过程中的非线性数据的信息,从而导致预测精度不高[1]。
80年代以来,非线性的神经网络算法产生,为害虫发生的预测预报的深入研究开拓了新的空间[2-4],然而神经网络是基于经验风险最小化原则,要求数据样本大,但实际的昆虫历史数据属于小样本数据,往往不能满足大样本这一要求,所以在预测过程中容易出现结果过拟合、泛化能力不强等现象。
基于结构风险最小化的支持向量机(Support Vector Machines ,SVM ),是一种新的机器学习方法,较好地解决了小样本、非线性、过拟合、维数灾和局极小等问题,且泛化推广能力优异,在病虫害预测领域里取得了不错的预测结果[5]。
基于著名的M-竞争理论[6],为了有效地利用各种模型的优点,一些学者利用组合预测方法来进行时间序列预测研究[7,8],实证结果表明,相对于单个的各种模型,组合模型大大提高了预测精度,表明组合预测模型能够较大限度地利用各种预测样本信息,比单个预测模型考虑问题更系统、更全面,因而能够有效地减少单个预测模型过程中存在的环境因素的影响,从而提高了预测的精度。
目前,通过ARIMA 和SVM 组合预测方法进行害虫发生预测还鲜有文献报到,本研究提出了一种基于ARIMA 和SVM 组合模型的害虫发生预测新方法—ARIMA-SVM 。
ARIMA 模型描述历史数据的线性关系,SVM 捕捉数据的非线性规律,对辽宁朝阳市松毛虫发生面积进行仿真实验,来验证ARIMA-SVM 模型的有效性和可行性。
2ARIMA 和SVM 的概述2.1 ARIMA 模型时间序列分析是处理动态数据的一种有效的参数化时域分析方法,ARIMA 是一种精确度较高的线性时间序列预测方法,是20世纪70年代美国学者鲍克斯·乔瑞(Georage Box)和英国统计学家詹肯·格威勒姆(Gwilym Jenkins)所建立的鲍克斯-詹姆(B-J)方法的进一步发展和改进[9],它把回归分析应用于时间序列,又不同于通常因果分析中的普通最小二乘法。
ARIMA 模型预测方程可以表示为:011121122(1)k yk yk pyk p k k k q k qy θϕϕϕεθεθεθε------=+++++----式中:k y 为样本值;(1,2,,)i i p ϕ= 和(1,2,,)j j q θ= 为模型参数;k ε为随机误差,它的均值为0。
ARIMA 时间序列预测的建模过程如下:(1)样本平稳化处理:建立ARIMA 模型要求时间序列是平稳随机过程,因此在建模之前必须检验时间序列数据的平稳性,如果数据序列是非平稳的,如存在一定的增长或下降趋势等,则需对数据进行差分处理;(2)模型定阶:ARIMA(p ,d ,q)模型定阶的方法主要有4种:样本自相关函数(Auto Correlation Function ,ACF)和偏自相关函数(Partial Auto Correlation Function ,PACF)定阶法、最小化最终预测误差(Final Prediction Error ,FPE)法、最小艾卡信息量准则(Aikake Information Criterion ,AIC)以及艾卡信息量修正准则(Aikake InformationCorrected Criterion ,AICC);(3)模型检验:在进行定阶和参数估计后,对所建立的模型适用性进行检验,若模型误差是白噪声,则建模获得通过,否则需要重新进行定阶和参数估计;(4)预测:对平稳化的时间序列进行预测。
2.2 SVM 原理根据给定K 个样本数据集{(, ), =1, 2, , },i i x y i k k 为样本个数,回归算法[10]的基本思想是通过一个非线性映射Φ,将数据i x 映射到高维特征空间F ,并在这个空间进行线性回归,具体表现形式如下:()T ()x b(2)f x ω=Φ+式中ω为超平面的权值向量,b 为偏置量。
回归估计通常采用在训练集上最小化经验风险得到,所使用的损失函数有平方误差和绝对值误差等形式,但支持向量机使用一种新的损失函数形式,称之为ε不敏感损失函数(ε-insensitive cost function )。
ε可用下式描述:|()||()|((),)(3)0|()|i i i i i i i i f x y f x y l f x y f x y εεεε---≥⎧=⎨-<⎩为了使训练集上获得的回归模型具有更好的推广能力,不但要考虑经验风险的最小化,同时还要设法降低模型的复杂度。
在这种理念指导下,SVR 回归实际上就是求解一个优化问题:**,,,11min ()(4)2i i lTi i w b i c ξωωξξ==++∑ 约束条件如下:**1,,(5)0,0i i ii i i i i y w x b w x b y i k εξεξξξ-⋅-≤+⎧⎪⋅+-≤+=⎨⎪≥≥⎩式中i ξ、*i ξ为松弛变量,分别表示在误差ε约束下()()Ti i f x x b ω-Φ+()的训练误差的上限和下限;ε为回归允许的最大误差,控制支持向量的个数和泛化能力,其值越大,支持向量越少;c 为一正常数,是函数回归模型的复杂度和样本拟合精度之间的折衷,其值越大,拟合程度越高;这样相应支持向量回归估计函数为:*1()()()(6)li i i i f x a a k x x b==--+∑由于任意满足泛函Mercer 条件的对称函数均可作为核函数,但是对于特定的问题,如何选择最合适的核,一直是困扰研究者的一个难点,针对此问题,很多研究和实验表明[11],当缺少过程的先验知识时,选择高斯核函数比选择其它核函数效果好。
本研究核函数采用高斯核函数,高斯核函数定义如下:221(,)exp()(7)||||i i k x x x x δ-=-回归函数变为:*2211()()exp()(8)||||li i i i f x a a bx x δ=-=-+-∑其中l 为支持向量数,i x 为作为支持向量的样本子向量,x 为待预测因子向量,i a ,*i a ,b 为建立SVM 模型待确定的系数,δ为核参数的宽度。
3ARIMA-SVM 模型3.1 ARIMA-SVM 原理大量研究表明,害虫发生系统是一个动态复杂系统,害虫灾害发生具有不均匀性、差异性、多样性、突发性、随机性、可预测性和规律性等复杂性的特点。