上证50指数的统计套利模型(doc 11)上证50指数的统计套利模型1韩广哲陈守东张炳辉吉林大学数量经济研究中心,吉林大学商学院,吉林,长春,130012摘要:本文使用逐步回归方法来确定合适的定价子空间,探讨上证50指数成分股之间的统计套利模型。
检验可预测性的方差比分析表明随机去势后的股票价格序列明显偏离随机游走,存在着可预测的成分。
联立方程模型表明股票的“错误定价(mispricing)”趋于在短期内形成趋势(trend),在更长时间内回复(revert)。
统计套利模型的样本外绩效通过使用一个简单的交易原则(构造并持有复合组合)就可以是盈利的,当交易费用水平是0.5%时,复合组合的年夏普比为1.8。
本文的研究有助于发现股票市场的统计套利机会并改善组合绩效。
关键词:统计套利模型错误定价方差比分析一、引言资产收益的波动在许多情形下是由其所在市1本文得到2002年教育部重大项目(02JAZJD790007)、吉林大学经济分析与预测哲学社会科学创新基地资助场甚至是国际市场的“趋势、变动”引起的,而不是某一特别资产的某个特殊性质。
这样就会存在着遮蔽资产收益的任何可预测成分的风险,许多学者提出建议,通过适当转换金融时间序列来减少这一遮蔽效应。
Lo和MacKinlay(1996)就一个特别的信息集构造“最大可预测”的资产组合。
Burgess和Refenes(1996)使用协整框架,由国际股票指数的一个组合来计算FTSE收益,组合权重是由协整回归系数给出的。
Steurer 和Hann(1996)也采用协整框架对汇率建模,将汇率作为货币和金融基本因素控制的“均衡”水平周围的短期波动。
Burgess(1996)使用主成分分析方法来建立欧洲美元投资组合,使用神经网络方法而不是线性技术,发现这一投资组合的收益是部分可预测的。
寻求收益的可预测成分的方法可以被刻画为“统计套利”。
Burgess (1999)在研究FTSE100指数及其成分股时,使用了逐步回归方法和ECM方法,他定义统计套利为传统的“零风险”套利的一个扩展。
零风险套利包括构造两组有着相同现金流的资产组合,充分利用这两个等价资产的任何价差。
多头(资产组合1)+空头(资产组合2)可以视为一个复合资产,零以外的价格偏离都代表一个“错误定价”和一个潜在的无风险利润(受到筹资成本、交易费用和买卖价格限制)。
统计套利与零风险套利的区别在于:构造复合资产组合,组合的非零价格偏离仍被视为“错误定价”,但在统计套利的意义下,动态价格存在着可预测成分。
本文以上证50指数50只成分股的收盘价格时间序列为研究对象,以样本内方差比曲线的信息和时间序列性质,探索动态价格时间序列的可预测成分,研究建立统计套利模型。
统计套利方法的使用包括三个阶段:构造复合资产组合,检验动态价格或收益的预测能力;构造协整回归,建立误差修正机制;实施交易系统,开发资产收益可预测的成分。
本文采用的统计套利方法,本质上是协整概念的一个推广。
我们在两个方面修改了标准协整方法:以检验可预测性的方差比(Variance Ratio,简记为:VR)方法来代替检验平稳性的协整方法;使用逐步回归法构造协整回归,而不是文献中常见的标准回归或者主成分方法。
这两个改进是有根据的:方差比检验相比于检验平稳性和长期均衡关系的协整方法来说,限制性少,更适合确定统计套利机会;问题空间(上证50又称为协整向量。
最常用的协整形式是(1,1)CI 。
但在我们的研究中,数据由上证50指数及其50个成分股组成,考虑到维数是51,大大高于普通的协整分析,样本大小320也相对很较小(数据描述见第3节)。
为了减小问题的维数,我们要确定相对较小的各变量子集,这就有了确定合适的子集来建立统计套利模型的问题。
为了保证取得整个变量空间的一个合理子集,我们采用逐个使用每一资产作为协整回归因变量的方法。
为了确定协整向量合适的子空间,我们使用向前逐步回归方法来代替标准“输入所有变量”的方法。
对上证50指数及其成分股进行单位根检验,发现大多数价格序列都是一阶单整的,少数几个价格序列不存在单位根,为平稳的,但这不影响我们的研究。
我们采用方差比来检验潜在的价格预测能力。
方差比检验遵循的事实是:随机游走的新息的方差随着时期线性增长,这些期间内增量是可以度量的。
这样,在τ期内计算的新息的方差应该近似等于τ倍的单期新息的方差。
基本的VR()τ统计量是:VR()τ=22()()t t t t d d d d τττ∆-∆∆-∆∑∑ (1)方差比是 的函数。
对于随机游走来说,方差比将会接近于1,且这一性质被很多人(Lo 和McKinley(1998)和Cochrane(1988))用作统计检验偏离随机游走行为的基础。
2.基于方差比分析检验预测能力我们不检验单独的VR统计量,而是从整体上检验方差比曲线,这能够总结时间序列的动态性质:方差比曲线正的斜率说明正的自相关,因此有趋势行为;方差比曲线负的斜率说明负自相关和均值回复或者周期行为。
计算方差比的时候,没有一个“很好的”区间来比较各个股票的方差比,基期的选择对方差比的计算也有着很大的影响,我们分析上证50指数的走势,分别计算下跌(2004年3月23日—2004年6月4日:50—100)和涨跌变化比较剧烈(2004年8月31日—2004年11月16日:160—210)两个区间(每个区间有51个样本)的方差比曲线。
下面给出了上证50指数及其成分股收益(为对数收益)的方差比曲线。
(图中:蓝色为下跌区间,红色为涨跌变化比较剧烈区间。
)我们给出了下跌区间与涨跌变化比较剧烈区间上证50指数收益的方差比曲线和50只成分股的平均方差比曲线(包括50只股票平均收益的方差比曲线和50只股票收益的平均方差比曲线),个股的方差比曲线不在此给出。
下跌区间的方差比曲线都要大过涨跌变化比较剧烈区间的方差比曲线;方差比曲线都在20天内有着显著变化,曲线在20天后趋于平稳。
所有股票都有着统一的特征:方差比曲线显著的偏离1,表明一定程度的可预测性。
除了下跌区间50只股票收益的平均方差比曲线表现为先上升再下降且显著大于1,其他方差比曲线的走势为下降且显著小于1,斜率为负。
各个成分股收益的方差比曲线的表现差异较大,下跌区间50只股票收益的平均方差比曲线,由于一部分股票的方差比1上方,而涨跌图2 图3 指数收益的方差比曲线图4上证50指数涨跌变化比较剧烈区间平均方差比曲线显示显著的负斜率,说明存在着高度的均值回复;而下跌区间平均方差比曲线斜率的正负变化较为剧烈,需要具体分析其趋势或者均值回复行为。
在本文,平均方差比曲线可被当作比较实际统计“错误定价”的方差比曲线的基线。
方差比曲线的有效性可以从以下事实中看出:它表明了时间序列偏离随机游走行为的程度,这可视为时间序列的潜在预测能力的度量。
这不同于关心平稳性的标准协整检验,一个序列可能是不平稳的但仍包含显著的可预测成分,这样方差比方法将会(比协整检验以及其他限制性的平稳性检验方法)找到更大范围的机会。
3.上证50股票“错误定价”的方差比曲线分析我们检验实际统计套利模型的残差偏离随机游走的情况。
数据包括上证50指数和它的50个成分股的日收盘价。
从2004年1月2日到2005年4月29日共320个观察值,其中270个作为协整回归估计使用,最后50个用作样本外评价。
使用向前逐步回归法代替标准的“输入所有变量”方法,选取多少个回归变量是一个重要的问题,我们借鉴Burgess(1999)和Connor & Korajczyk(1988)的研究,每一资产都依次作为向前逐步回归的因变量,对常数和从可能的49个股票中选出的5个(即选择向前逐步回归法最先选出的5个股票)回归量回归:270,,2,1 ; 50,,2,1 ,,51),,(,,, ==++=∑=t s P c P t s i t s i c i s t s t s εω (2) 分别得到50只股票的残差序列t s ,ε即为“错误定价”序列,其中:),(s i c P 是股票s 的模型的第i 个成分股票的价格,i s ,ω是相应的回归系数(组合的权重)。
我们对均值为负的残差序列进行取相反数调整,均值为正的残差序列保持不变,以t s ,ε'表示调整之后的错误定价序列,我们以这50个逐步回归模型构造一个复合组合,每个逐步回归模型是等权重的,不妨令权重和为1,组合的预期收益即为平均统计错误定价是正的,平均统计错误定价序列为:270,,2,1, 501501, ='=∑=t s t s t εε (3) 我们计算平均统计错误定价的方差比曲线,以检验潜在的预测能力,检验是以偏离随机游走行为的形式进行的。
下跌区间与涨跌变化比较剧烈区间的平均统计错误定价的方差比曲线如图5所示。
检验表明统计套利模型的平均错误定价明显偏离随机游走行为――说明存在着随机以外图5 平均统计错误定价的方差比曲线。
三、统计套利模型这一部分建立统计错误定价的动态性模型并建立预测错误定价变化的时间序列模型,研究统计错误定价未来变化的可预测性。
对样本期间270个观察值,估计了包含50个错误定价方程的联立方程模型。
270,,2,1 ; 50,,2,1 MIS ,s, =='=t s t s t ,ε (4)),(s i c P 是股票s 的模型的第i 个成分股票的价格,i s ,ω是相应的回归系数(组合的权重);为了捕捉错误定价的不同滞后时间段的动态性质,选择剩余的独立变量,形式如下:20,10,5,2,1,0, ,MIS MIS ),(,,,=-=--m n m n L m t s n t s t s (5)为了捕捉任何一个均值回复效应,错误定价的一天向前变化基于当前水平的错误定价进行回归,最终的回归形式为:1,,5,4,3,2,101)20,10()10,5( )5,2()2,1()1,0(MIS MIS MIS +++++++++=-t s t s t s t s t s t s s,t s,t s,t L L L L L εββββββα (6)分别采用了加权最小二乘法(WLS )和似不相关回归法(SUR )来估计联立方程模型,一共有50⨯249=12450个观察值用来估计联立方程模型,剩余50⨯50=2500个观察值作为样本外评价。
回归结果在表1(*表示系数在99%置信水平下显著)中给出。
加权最小二乘法和似不相关回归法估计得到的模型都显示统计错误定价的未来变化有着显著的可预测性。
预测性源自两方面:第一个是短期趋势,以滞后差分项(,)L n m的正的系数代表;第二个是长期误差修正,以错误定价MIS的负的系数代表。
考虑到估计模型的数据集的大小,结果是非常显著的。