股市预测模型基于混合ARMA模型和支持向量机摘要:股市预测在以往的文献中已经吸引了大量的研究兴趣。
传统上,ARMA模型已经成为时间序列中应用最为广泛的线性模型之一。
但是,ARMA模型不能够轻易的捕捉非线性模式。
并且最近的研究表明,人工神经网络(ANN)方法比传统的统计的人实现了更好的性能。
人工神经网络方法在泛化(generalization)方面经历了一定的困难,但是其生产模式可以过度拟合数据。
支持向量机(SVM)一种新型的神经网络技术,在解决非线性回归估计问题上已经得到成功的应用。
因此,此次调查提出了在股市预测问题的支持向量机模型上,利用ARMA模型的独特优势试图向用户提供更好的解释力模型的混合方法。
股市的真实数据集被使用来研究该模型的预测精度。
计算的测试结果是很有前景的。
关键字:BP神经网络,金融时间序列,预测,支持向量机1.引言股市预测因其高波动和不规则性被认为是具有挑战性的任务。
因此,许多模型已经被描绘为投资者提供更精确的预测。
尤其是,人工神经网络(ANN)方法在以前的文献中最为频繁被使用,因为其已知的预测的效率优于其他模型。
然而,由于解释神经网络的难度,大多数应用神经网络的研究集中在预测精度。
在文献中已被报道,利用人工神经网络模型,以很少的努力提供对破产预测过程更好的理解。
此外,由于神经网络的过度拟合在泛化方面具有困难,并且完全取决研究人员的经验或是知识,用于选择大量的包括相关的输入变量,隐含层的大小,学习率以及动量控制参数的预处理。
最近,在1995年首次由Vapnik提出的支持向量机(SVM)方法近来被使用在一系列应用中,包括金融股市预测。
支持向量机(SVM)的基础已经被Vapnik开发,由于许多吸引人的特点以及在广泛的问题上优异的泛化性能使其越来越受欢迎。
该制定(formulation)体现了结构风险最小化(SRM)原则被常规神经网络采用,且已被证明优于传统的经验风险最小化原则。
SRM泛化误差上限的最小化,用术语来说,就是在训练数据中误差最小化。
此外,SVM的解决方案可能是全局最优解,而其他神经网络模型往往会陷入局部最优解。
一般来说,支持向量机技术被广泛认为是艺术分类的状态(the state of art classifier),并且以往的研究表明,SVM预测方法优于神经网络的方法。
最初为解决分类问题开发的SVM技术可以成功地在回归中应用。
与模式识别问题只需输出是离散值不同,支持向量回归处理(deals with)实值函数。
SVR起源于结构风险最小化原则通过最小化泛化误差上限去估计一种功能。
以往的研究报道了SVM已经成功地在许多领域解决了预测问题。
然而,提高预测的精度性仍然是预测领域关注的首要问题。
特别是对股市的预测,即使在预测精度上轻微的改进也可能对投资的利润产生积极的影响。
据报道,混合系统针对传统的系统在预测和分类中取得了较高的性能水平。
张【22】在预测上结合了ARIMA和前馈神经网络模型。
这项研究提出了用ARMA和支持向量机的混合模型区解决股票价格预测问题。
2.用于预测的混合模型2.1自回归滑动平均模型ARMA模型已经被波克斯(Box)和詹金斯(Jenkins)提出了为了时间序列的描述把自回归和滑动平均模型混合。
在(Arp)p阶的自回归模型中,每个单独的值T x可以表示为P以前的值和白噪声,T z的有限和:x t=α1x t−1 +…+αp x t−p + z t(1)参数ai可以被尤尔·沃克方程估计,从自相关系数角度来说,尤尔·沃克方程是一组线性方程。
在(MAq)q阶的滑动平均模型中,现值xt可以表示为Q以前的值T z的有限和:x t= β0z t+ β1z t−1 + βq z t−q(2)在这个方程中,z i是测量和预测值X在时间实例I上的白噪声的残差。
模型参数βi就自相关而言通常是由一组非线性方程组来确定。
Z的值通常被缩放(scaled),使得β0= 1。
在过去,滑动平均模型特别被使用在受如罢工和政府决策等随机事件影响的经济指标的计量经济学领域。
(P,Q)阶的ARMA模型是Arp和MAq模型的混合,计算公式如下:X t=α1x t-1+…+αp x t-p+β1z t-1+…+…+βq z t-q(3)使用后移算子B,上一个方程可以写为:φ(B)x t=θ(B)z t(4)其中φ(B) 和θ(B)分别是P,Q阶的多项式,使得:φ(B) = 1−α1B −…−αp Bθ(B)= 1−β1B +…+ βq B q (5)ARMA模型基本上是改编自数据本身的结构的面向数据的方法。
然而,任何显著的非线性数据集限制ARMA。
因此,所提供的混合模型使用支持向量机来处理非线性数据模式。
2.2股市预测中的支持向量机理论考虑一组训练数据{(x1, y1 ),....,(x l,y l)},其中每一个x i⊂R表示样本的输入空间并且有相应的目标值y i⊂R i=1…l,其中l对应于训练数据的大小。
回归问题的想法是要确定可以准确的逼近未来值的函数。
SVR 估计函数一般形式为:f (x ) = (w ⋅Φ(x )) + b (6)其中w ⊂R n , b ⊂R ,Φ表示R n 高维空间的线性转换。
我们的目标是通过最大限度地降低风险回归确定x 的值找到w 和b 的值:R reg ( f ) = C ∑.l i=0Γ( f (xi ) – (yi ) + 1/2‖w ‖2 (7)其中Γ(⋅)是一个成本函数,C 是常数,w 是变量,就数据点而言可以写成:w=∑.l i=0(αi -αi *)Φ(x i ) (8)通过把(3)式代入(1)式,一般方程可以改写为: f ( x )=Σ(αi –αi*)(Φ(x i )·Φ(x))+b=Σ(αi –αi*)k(x i, x)+b (9)等式(4)的点积可以用被称之为核函数的k(x i, x)来代替。
核函数使点积能够在高维特征空间在不知道转换Φ下使用低维空间数据来执行。
所有的核函数必须满足Mercer 条件就是对应一些特征空间的内积。
径向基函数(RBF)是常用的内核回归:k(x i, x)=exp{-γ|x − x i |2} (10)一些常见的内核可以在表1中所见。
在我们的研究中,我们已经试验了这三个内核。
表1.常见核函数ε的不敏感损失函数是最被广泛使用的成本函数。
该函数的形式为:Γ(f (x)-y )={︱f (x )−y ︱−ε,︱f (x )−y ︱≥ε0 otherwise(11)通过求解(12)式的二次优化问题,(7)式的回归风险和(11)式ε的不敏感损失函数可以最小化为12∑(a i l i,j=0-a i ∗)(a j ∗−a j )k(x i −x j )−∑a i ∗(y i −ε)−l i=1a i (y i +ε)符合以下条件:∑a i −a i∗=0,l i=1 a i ,a i ∗∈[0,C ]拉格朗日乘子a i 和a i ∗表示上述的二次问题作为力推实现目标值y i 的预测解决方案。
(12)式中的拉格朗日乘子仅为非零值时支持向量在预测回归线时才能够被使用。
对于内部所有的ε-tube 点,拉格朗日乘子等于零并不有助于回归函数。
只有当要求函数︱f(x)-y︱≫ε(见图1)被满足,拉格朗日乘子可以是非零值,并被用作支持向量。
等式(13)被采用的常数C确定为估计误差的罚因子。
大C对误差分配更多的罚因子以至于当小C对误差分配较少用较低的泛化使回归训练最小化。
这使得误差幅度最小化,从而得到更高的泛化能力。
如果C变为无限大,SVR不允许任何产生任何误差从而导致一个复杂的模型,而当C变为零时,结果将产生更大量的误图 1.支持向量回归以适应管的半径的数据和积极的松弛变量ζ去测量位于管外的点现在,我们已在拉格朗日乘子方面解决了w的值。
对于变量b,可以通过应用库恩塔克(KKT)条件来计算,在这种情况下,意味着拉格朗日乘子和约束的积等于零:a i(ε+εi−y i+(w,x i)+b)=0a i∗(ε+ξi∗+y i−(w,x i)−b)=0(13)(C−a i)ξi=0(C−a i) ξi∗=0(14)其中松弛变量ξi和ξi∗是用来测量ε-管外的误差。
因为a i ,a i∗=0,ξi∗=0,当a i∗∈(0,C),b可被如下的方程计算得:b=y i−(w,x i)−ε,a i∈(0,C)b=y i−(w,x i)+ε, a i∗∈(0,C)(15)通过计算上面所有的式子,在没有变换的条件下可以使用SVM好SVR。
2.3混合方法外债风险的行为不能很容易的抓获。
因此,具有线性和非线性建模能力的混合策略是预测外债风险的一个很好的选择。
ARMA和SVM都具有不同的功能,以捕捉线性或非线性域中的数据特性,所以在本研究中提出的混合模型是由ARIMA和SVM部分组成的。
因此,混合模型通过提高整体的预测能力改造线性和非线性的模式。
混合模型z t可以表示如下:z t=Y t+N t(16)其中Y t是混合模型的线性部分,N t是非线性部分。
Y t和N t 都被数据集估计。
Y t是ARMA模型在时刻t的预测值。
让εt 表示从ARMA模型在时刻t获得的残差;得:εt=z t+Y t̃(17)残差是由支持向量机建模的,并且可以用如下方程表示:εt=f(εt−1,εt−2,…,εt−n)+∆t(18)其中f是被SVM建模的非线性函数,而∆t为随机误差。
因此,该混合预测为:z t̃=Y t̃+N t̃值得注意的是,N t̃是(17)式的预测值。
3.实验和比较3.1数据描述在实验中,两只股票标准普尔500指数和日经指数200都是每日从数据流中获得的。
整个数据集涵盖的时间段是从2000.01.01~2004.12.31。
该数据集被分为两个阶段:第一个阶段是从2000.01.01~2013.12.31,第二个阶段则从2004.01.01~2004.12.31。
第一阶段中则用于网络学习和训练,且数据集已被转让给样品估计。
第二阶段是给出来的样品估计的保留。
为了简洁,原始数据没有在纸中列出,以及详细的数据可以从来源获得。
3.2性能标准该预测结果的检查是在该模型预测效果的关键,因为我们能获得不同预测方法特性的信息,这对选择并使用多种预测方法的人是非常有用的。
预测性能使用以下统计指标进行评估,即,平均绝对误差(MAE),平均绝对误差百分比(MAPE),均方误差(MSE)和均方根误差(RMSE)。
如下所述的这些标准定义:(1)平均绝对误差(MAE)MAE=1n ∑|x ini,j=1−x j|i,j=1,2,…n (19)(2)平均绝对误差百分比(MAPE)MAPE=1n ∑|X i−y jx ini,j=1|i,j=1,2,…n (20)(3)均方误差(MSE)MSE=1n ∑(x ini,j=1−x j)2 (21)(4)均方根误差(RMSE)RMSE=√1n ∑(x ini,j=1−x j)2(22)四个指数的值越小,其精度就越高。