中国股票市场波动率的高频估计与特性分析*黄后川(南方基金管理公司 510200) 陈浪南(中山大学岭南学院与中山大学经济所 510275) 内容提要:本文旨在应用高频数据估计中国股市的已实现波动率。
我们发现股票指数与个股的高频交易数据中的微观摩擦影响正好相反,使用极高频的数据会大大增加个股的波动率估计值,相反却会大大降低指数的波动率估计值。
在计算各种频率的已实现波动率的基础上,本文构造了一种较为精确的估计波动率的方法,可以更好地平衡测量误差与微观结构误差。
基于已实现波动率,本文研究了中国股市波动率不对称性和长期记忆特性。
关键词:波动率 高频估计 特征* 本文是国家自然科学基金课题(79800010、70042005)、上交所2002年联合研究计划课题、教育部社科“十五”课题(01j b790026)及2002年厦门大学校级课题成果之一。
一、引言与先前该领域研究述评近二十年来,对波动率模型的研究已成为金融经济学领域研究的重要内容之一。
自Engle 于1982年提出ARCH 模型以来,经济学界已经发表了数千篇关于条件异方差或波动率的论文。
特别是最近十年,一些学者提出用高频分时数据估计波动率的方法,这种方法可以得到比较准确的波动率估计值,称为“已实现波动率”(Realized Volatility )。
以此为基础,众多学者在波动率的特性和预测两方面进行了更深入的研究,大大拓展了这个研究领域。
Andersen 、Bollerslev 、Diebold 、Ebens (1998,2001)等金融经济学家对这种高频估计方法以及“已实现波动率”的特性与预测进行了一系列研究,他们得出了如下几个主要结论(计算的波动率都是日波动率):(1)如果价格遵循普通的扩散过程,用此方法计算的已实现波动率,是无偏的。
而且,当高频数据的时间间隔趋近于0时,已实现波动率的测量误差也趋于0。
因此可以把已实现波动率当作一个观测值,它没有经典算法所带来的时间滞后。
(2)通过对外汇市场和道·琼斯工业股票的实证研究,发现:①股票市场中,正收益对后续波动率的影响不如负收益明显,即波动率具有杠杆效应。
②已实现波动率的对数具有明显的长期记忆特性。
③虽然已实现波动率明显向右倾斜,但已实现波动率的对数呈现正态分布。
④虽然原始的收益率数据有明显的高峰和大尾巴,但收益率除已实现波动率呈现正态分布。
⑤股票市场的波动率与相关度呈相同方向运动,降低了资产组合分散化在高波动率时的作用。
(3)依据(2)中的结论,用体现长期记忆的分数综合—移动平均自回归(Auto Regression Fractional Integrated Moving Average ,ARFI MA )方法可以得到更好的波动率预测。
使用正态—对数正态混合分布可以得到很好的概率密度和分位数估计(例如VaR )。
已实现波动率的一个重要用途是作为对以前各类模型进行评价的基准。
它的另一个更重要的用途是用于检验波动率的各种特性,并对未来波动率进行预测,因为已实现波动率可以直接当作波动率的一种观测值,因此可以采用一般的时间序列方法,无须像AR CH 模型一样通过模拟收益率序2003年第2期列得到内含的波动序列。
许多经济学家,如Engle、Ng(1993)等,都通过实证研究指出了信息(一般用前期收益度量)与波动率之间的不对称性,即好信息与坏信息对未来波动率的影响程度不同,通常,负收益率相对正收益率而言对未来波动率的影响更大些。
对该现象有两种解释,其一称为“杠杆效应”,即一个大的负收益增加了财务和操作杠杆,反过来提升了股票收益的波动率。
第二种解释认为,市场风险贴水是波动率的增函数,大的负收益由于存在一个波动率反馈效应,因而对波动率的影响比正收益更大些。
波动率的一个重要特性是它的持续性,即市场波动一般会持续一段时间,随着时间的推移而慢慢消失。
通常,经济学家们把时间序列分为确定性的趋势和移动平均自回归随机过程两个部分,判别确定性趋势的一种常用方法是测试时间序列是否存在一个单位根。
Granger(1966)发现大多宏观或金融变量都存在着自相关系数慢速衰减现象,随机游走或ARIMA只是具备这种现象的特例之一。
本文旨在应用高频数据估计中国股票市场的已实现波动率。
在计算各种频率的已实现波动率的基础上,本文构造了一种较为精确的估计波动率的方法,可以更好地平衡测量误差与微观结构误差,并进一步考察中国股市波动率的不对称和长期记忆特性。
二、研究方法1.波动率的高频估计使用高频交易数据(如5分钟、1天)来计算低频波动率(如1天、1月)的理论模型如下:假定n维对数价格向量p t遵从多维连续的正态发散过程:dp t=μt dt+Ψt dW t其中Ψt为n×n维的强平稳的正定的扩散矩阵,W t是标准的布朗运动,则收益r t+h,h=ln p t+h -ln p t服从以下条件概率分布:r t+h,hσ{μt+τ,Ψt+τ}hτ=0 ~ N(∫h0μt+τdτ,∫h0Ψt+τdτ) 其中∫h0Ψt+τdτ为综合的方差,根据二次变换理论,当Δ※0时,有:∑j=1,2,…,[hΔ]r t+jΔ,Δ·r′t+jΔ,Δ - ∫h0Ψt+τdτ※0 由此构造估计量σ2=∑j=1,2,…,[hΔ]r t+jΔ,Δ·r′t+jΔ,Δ(1)它是无偏的,而且,当Δ※0时,测量误差也趋于0。
2.时间频率与波动率估计假定某一日的资产收益率为r,如果把此日内的交易期间分成N份,可以得到包含N个期间段的收益率序列{r1,r2,Λ,r N},那么对应数据频率N的波动率估计值如下:σ2N=∑N i=1r i2。
为简便起见,我们比较N=1和N=n>1时波动率的估计值,σ21=r2=∑n i=1r i2=∑n i=1r i2+∑ni=1∑j≠ir i r j=∑n i=1r i2+2∑ni=1∑nj=i+1r i r j=σ2n+2∑ni=1∑nj=i+1r i r j=σ2n+2∑ni=1∑n-ij=1r i r i+j(2)即:低频波动率估计值=高频波动率估计值+2*高频收益率在低频期间内的自协方差之和。
另外,σ2=∑n i=1r i2估计误差可由下式表示:黄后川、陈浪南:中国股票市场波动率的高频估计与特性分析E∑n i=1r i2-σ22=σ4n(K i-1)1+2∑n-1i=1n-i nρi(3) 其中K i是序列r i的峰度,ρi是序列r i2的第i个自相关系数(Karatzas,Shreve,1988)。
根据(3)式,容易看出,估计误差随着数据频率的增高而降低,如果要得到准确的波动率估计值,最好选取最高的数据频率和最小的时间间隔。
然而,在个股价格的高频时间序列中,价格上下跳跃意味着高频收益率序列的自相关系数是个负数,根据(2)式,因为E(r i r i+j)<0,所以高频估计值会比低频估计值来得大。
由(3)式,估计误差不仅与频率n有关,也与序列r i2的自相关系数ρi有关,选取极高频数据来估计波动率,往往会由于ρi的显著增大而产生较大误差(微观结构摩擦误差),因此,最佳的估计频率应当在测量误差与微观结构误差间进行权衡。
3.已实现波动率的不对称特性我们研究上证A、B指数“已实现方差的对数”和收益率之间的不对称特性,所采用的模型是以下的折线方程:y=ω-k1(x-x0)I-x-x0+k2(x-x0)I+x-x(4) 其中y为波动率,x为上期收益率,I-x-x0在x-x0<0时取1,其它情况时取0;I+x-x在x-x0≥0时取1,其它情况时取0。
ω、x0、k1、k2为待估参数,采用非线性最小平方估计进行模拟。
当折线的两个斜率不等,负收益对应的斜率k1显著大于正收益对应的斜率k2时,即表明已实现波动率存在明显的不对称性。
4.已实现波动率的长期记忆特性波动率的一个重要特性是它的持续性,即市场波动一般会持续一段时间,随着时间的推移而慢慢消失。
我们可以通过分数综合自回归移动平均模型(Fractional Integrated Autor egressing Moving Av-erage,AR FI MA)更好地模拟具备这种现象的时间序列。
长期记忆或是短期记忆过程可以用统一的ARFIMA模型刻划,A RFIM A(p,d,q)模型的形式如下:(L)(1-L)d y t=θ(L)εt(5) 其中y t是可观察的序列(如通货膨胀率),εt为一平稳的噪声序列,(L)、θ(L)分别为L的p 阶、q阶多项式,d是一个分数,表示对序列进行某种形式的差分。
d=0时,A RFI MA(p,d,q)模型退化为AR MA(p,q),当d=1时,就是A RIMA模型。
有许多方法可以检测和估计长期记忆过程的存在与否以及代表自相似程度的参数d,我们使用修正的周期图方法估计分数综合参数。
周期图方法又称为GPH估计方法,是Ge weke、Porter-Hudak(1983)提出的一种非参数周期图回归方法。
首先,需要计算时间序列在各频率下的周期图:I(λ)=|∑n j=1X j e jλi|(2πN),其中i为虚数单位,λ=2πk N为傅立叶频率。
因为I(λ)是频谱密度的一个估计量,所以长期记忆过程的I(λ)的对数应当与|λ|-2d的对数成正比,构造以下线性方程:ln(I(λk))=β0+β1ln sin2(λk2)+η估计出β1后,根据d=-β1可以计算出分数综合的参数。
若分数综合参数的估计值在统计上显著,则说明波动率序列具有长期记忆性。
2003年第2期三、实证研究与分析1.样本数据本文使用的原始数据为上证A 、B 股指数在2000年1月4日至2002年3月25期间内的每笔交易数据。
其中上证A 股指数数据共计252510条,包含519个交易日,平均每日485条,上证B 股指数数据共计199106条,包含513个交易日,平均每日388条。
期间内有异常的原始数据如表1所示。
表1有异常的高频(每笔交易)数据列表日期数据异常原因2000—03—27至2000—03—31上证A 指,上证B 指缺失数据2001—02—20至2001—02—23上证B 指暂停交易2001—02—26至2001—02—27上证B 指暂停交易2001—05—08上证A 指,上证B 指缺失数据2001—11—15上证A 指,上证B 指缺失数据 由于数据缺失,少了7个交易日的每笔交易数据,另外,因为上证B 指在2000年2月20日至2000年2月27日之间暂停交易,所以上证B 指比上证A 指要少6个交易日的数据。
鉴于数据缺失的交易日较少,对于这些交易日,我们把它们直接从时间序列中扣除。
另外,为了研究上证A 指、上证B 指之间的协方差和相关度,我们从上证A 指中除去对应的6个交易日,再计算协方差和相关度序列,因此协方差和相关度序列的长度为513。