高频数据波动率预测论文【摘要】金融市场的交易连续不断,其日内高频数据包含的信息也有一定的差别,除了考虑收盘价这一要素外,日内观测到的最高价、最低价、成交量等因素也要纳入对金融市场的分析中,这样可以获得比单独采用收盘价这一因素进行波动率研究更准确的研究结果。
一、引言随着科技进步尤其是电子计算机技术的发展,对高频数据的记录、收集、存储和操作的时间和金钱成本都大大下降,20实际90年代以来,高频数据的分析与建模得到了迅速的发展,并广泛运用与金融市场微观结构理论的实证研究中。
高频数据能精确到交易日日内分时收盘价,充分保证重要的市场信息不被丢失,使得基于高频数据估计的波动率包含更加丰富的波动信息。
高频波动率与低频波动率的特点不同,呈现出时间序列的负相关性、周期性U型日历效应和长记忆性等,而现有的基于低频数据的ARCH类或SV类模型并不能很好的描述这些统计特征。
对高频波动率的研究已经成为计量经济学领域的一个热点。
深入研究日内高频数据波动率的性质,选择合适的波动率预测模型和金融资产收益率分布来度量中国股票市场的风险,分析市场微观结构对高频波动率的影响,从而为金融机构和监管当局的风险监控提供一种有效的理论方法参考和政策建议具有重大意义。
本文通过选取沪深300指数5分钟交易数据,通过构建目前广泛用于高频数据分析的已实现波动率和已实现极差两个序列,通过R/S法计算Hurst指数,确定两个序列的长记忆性,进而对两者构建了长记忆性的ARFIMA模型,并用这一模型进行了波动率估计,再采用均方根误差和绝对平均误差两个指标对两个模型的预测结果进行了评价。
二、文献综述Engle(2000)为超高频数据或交易的建模应用提供了新的思路。
通过选取的52144条IBM股票的交易数据去为交易的时机建模并测量分析它对价格波动的影响,将ACD模型引入去估计到达比率的相关点过程,同时采用了半参数法去估计调和均数。
实证结果说明对于更长的持续期和更长的预期持续期,其波动会相应的更小。
Andersen (2001)等采用道琼斯工业指数中获取的日内高频交易数据对从已实现日股票收益波动率和相关系数进行研究,他们发现实现方差和协方差的非条件分布是高度右偏,然而实现对数标准差和相关系数却近似于高斯分布,已实现波动率与相关系数表现出了较强的短暂相关性,即所谓的长记忆性。
Andersen(2003)等构建了一个集高频日内数据测量、建模和每日预测和低频收益波动与收益分布的体系,大部分有关金融资产收益波动率、相关性和分布的建模与预测是基于多元ARCH 或者随机波动率模型的潜在限制性和复杂的参数,相比之下,使用由高频日内收益所计算得出的已实现波动率使得建模与预测允许采用传统时间序列方法。
在构造连续时间无套利价格理论与二次方差理论的基础上,他们提出了已实现波动率与条件协方差矩阵的关系。
通过德国马克兑美元和日元兑美元的10年以上的汇率数据的实证分析,他们发现简单的长记忆高斯向量回归对数日已实现波动率在预测上的表现优于许多ARCH类模型与更复杂的高频数据模型。
近年来,许多学者开拓了新的研究高频数据的思路,成果也不断涌现。
唐勇和张世英(2006)通过选取深圳成指的高频数据进行实证分析,通过对比已实现极差与已实现波动率这两个波动估计量,证明了实现极差在波动估计上优于已实现波动率。
此外,在高频数据的“日历效应”问题上,提出了加权已实现极差,并与实现极差作比较,证实了加权已实现极差在估计波动方面更为优秀,为在高频数据中将极差应用于估计波动率拓展了一个新的思路。
Sun(2009)等采用ARMA(1,1)-GARCH (1,1)模型这一参数模型,选取了德国DAX指数的高频数据并融入于列维过程去计算风险价值,并将运用这一方法计算所得的VaR和标准的非参数法计算所得的VaR进行对比,结果显示这一参数法获得了更好的结果。
Lu(2010)等分析了当2005年7月21日人民币再调整时相关货币兑美元的1分钟高频数据的变动,数据分析显示人民币再调整时汇率数据中存在一个大的跳跃,在这一跳跃之后,汇率的收益率存在着大的波动率,此外,外汇数据中一些大的跳跃伴随着这一跳跃发生。
Thanos和Owain(2010)提出了一种处理超高频金融市场数据中样本外预测的多维算法。
在数据统计分析中,对金融时间序列的统计特征采用稳健的平均绝对偏差法去分析,并提出将价位,价格波动和收益分布同时考虑进市场微观结构算法的原理中。
唐勇和刘微(2013)推导出了已实现极差多幂次变差族中最优的波动估计量,根据无偏性和有效性原则作了相应的加权处理,得出了加权估计量,将这些估计量与已实现GARCH相结合,并对此模型进行了拓展。
通过实证分析说明已实现极差四幂次变差是已实现极差多幂次变差族中最优的波动估计量,加权已实现极差四幂次变差能消除高频数据中的日内效应。
雷井生和林莎(2013)改进了统计套利策略,设计了一个新的统计套利策略并进行了实证分析,在新的策略下,运用不同频率数据进行套利统计,分析并得出了新的策略在套利统计上具有良好的绩效,并且样本内的盈利对于样本外的盈利预测性明显增强。
随着对金融高频数据研究的发展,由于高频数据本身所具有的特性如日历效应等,以及使得GARCH模型很难用于高频数据的分析,不同的学者提出与发展了新的适用于高频数据研究的成果,其中比较突出的成果要属已实现波动率和已实现极差这两个被广泛用于高频数据分析的研究成果。
三、方法简述已实现波动率(Realized volatility,简记为RV)由于其计算简便,无需进行模型参数估计(model-free),有助于研究多变量时间序列的波动特征。
同已实现波动率RV一样,已实现极差波动(Realized Range volatility,简记为RRV)也是具有无需模型(model free)和计算简便的波动率估计量,Parkinson(1980)提出了构造极差的表达式,在此基础上Christensen(2005)提出了已实现极差波动。
不同学者和研究人员经过理论和实证上的对比,认为已实现极差是比已实现波动率更为有效的波动率估计量。
下面分别对两者进行定义。
令Pclose(t,i)为日内观测的收盘价,R(t,i)=In(Pclose (t,i)-Pclose(t,i-1))Ht,i=■lnp■,L■=■lnp■,Sp■=H■-L■(t=1,2,,,T,i=1,2,,,N,j=1,2,,,N)上式中,T为研究天数,N为在[t-1,t]内等时间间隔的观测次数,Δ=■,为将[t-1,t]等分为N个时间段的某个小时间段的时间间隔,N取整数则已实现波动率定义为:RV=■R2(t,i),为日内对数收益率平方和的累加。
已实现极差定义为:RRVt=■■Sptj2,为日内最高价和最低价对数平方和的累加。
判定波动率序列是否具有长记忆性的方法主要有时域和频域两个两个方法,本文选择时域角度,以重标极差法(R/S)计算的Hurst 指数来度量波动率序列的长记忆性。
当H≤0.5时,序列{Xt}呈现短记忆性;当H>0.5时,序列{Xt}呈现长记忆性。
针对已实现波动序列{Xt}所具有的长记忆性,本文采用分整自回归移动平均模型(Autoregressive fractionally moving averagemodel,简称为ARFIMA(p,d,q)模型)对已实现类波动率序列进行建模分析。
ARFIMA(p,d,q)模型的具体形式为:φ(L)(1-L)d(Xt-μ)= θ(L)εt其中,μ为序列{Xt}的均值,εt~i.i.d(0,σ2s),φ(L)为P阶平稳回归算子,θ(L)为q阶可逆移动平均算子,它们的根都在单位圆外。
d为分数维滞后阶数,反映的是序列{Xt}的长记忆性。
ARFIMA(p,d,q)的特征主要在于用p+q个参数来刻画序列{Xt}的短记忆特性,用参数d来刻画{Xt}的长记忆特征。
对于ARFIMA(p,d,q)模型的参数估计,可以采用两步参数法:首先估计ARFIMA(p,d,q)模型中的分数维滞后阶数d,并对原序列取分数维差分,得到新的可用于估计的时间序列。
d确定好以后,ARFIMA模型可以当作ARMA模型进行估计,确定剩下的参数p和q。
由于参数d和Hurst指数满足:d=H-0.5,因此可以通过R/S法计算所得的Hurst指数确定参数d,再将模型当作ARMA模型,进行剩下的参数估计。
四、实证过程本文选择沪深300指数作为研究样本,样本选取的区间为2011年4月1日至2014年3月5日,选取的高频数据频率为5分钟的高频数据,数据来源于Wind资讯金融终端,在计算得到的已实现波动率RV和已实现极差RRV后,开始进行实证分析。
实证部分主要用matlab 软件进行。
下表为已实现波动率RRV和已实现极差的描述性统计:描述性统计结果从上表可以看出,无论是已实现波动率RV还是已实现极差RRV,都呈现出尖峰厚尾的特征,相应的JB统计量和括号内的P值都表明上述序列不服从正态分布,且根据偏度和峰度值来看,都呈现出右偏厚尾的特性。
下面对两个序列进行单位根检验,结果如下:单位根检验结果从上表的结果来看,RV和RRV两个序列检验的t统计量在99%的置信水平上都拒绝了原假设,其P值都是足够小的值,因此RV序列和RV序列都通过了检验,这两个序列都是平稳的。
下面对两个序列进行长记忆性检验,结果如下RV和RRV的长记忆性检验从上表可以看出,RV和RRV的Hurst指数0.5<h<1,相应的分数维滞后阶数0<d<0.5,说明这两个序列都呈现长记忆性,因此可以对这两个序列分别建立arfima模型。
< p="">RV序列的估计过程中,通过AIC和SC准则确定的(p,q)为(1,1),则所得到的RV-ARFIMA(1,0.264,1)的具体形式为:(1-0.064L)(1-L)0.264(RV-μ)=(1-0.95L)εt(1.466)(-66.643)RRV序列通过AIC和SC准则确定模型的(p,q)选择为(1,2),则得到的RRV-ARFIMA(1,0.467,2)的具体形式为:(1-0.62L)(1-L)0.467(RRV-μ)=(1-1.362L+0.4L2)εt (7.689)(-12.71609)(5.1173)括号内为相应参数的t统计量。
在构建完所有的模型后,我们对各模型进行波动率预测能力上的比较,比较的标准选择均方根误差(RMSE)和绝对平均误差(MAE)两个指标:RMSE=■■(MV-FV)■■MAE=■■(MV-FV)■其中,MV表示实际的波动率,FV表示模型预测的波动率。
设定预测期为100,就可以得到向前预测100期的预测值,再采用上述两个方法对波动率预测的结果进行评价,两个模型预测的评价结果如下:波动率预测评价对比RRV和RV序列构建的ARFIMA模型在波动率预测上的结果,我们可以发现无论从均方根误差还是绝对平均误差的角度,RRV序列的预测误差都小于RV序列的预测误差,这也从实证上印证了本文在理论上分析RV和RRV在波动率估计上的优劣区别。