当前位置：文档之家› 回归大作业-基于多元线性回归的期权价格预测模型

回归大作业-基于多元线性回归的期权价格预测模型

基于多元线性回归的期权价格预测模型王某某（北京航空航天大学计算机学院北京100191）1摘要：期权是国际市场成熟、普遍的金融衍生品，是金融市场极为重要的金融工具。

2015年2月9日，上海证券交易所正式推出了我国首支场内交易期权——上证50ETF期权，翻开了境内场内期权市场的新篇章。

50ETF期权上市以来，市场规模逐步扩大，其发展情况境外期权产品相同时期。

本文以此为研究背景，以“50ETF购12月1.95”这支期权为研究对象，以今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价为解释变量，通过多元线性回归模型，预测该期权的明日收盘价。

本次研究以多元线性回归的全模型（模型1）为出发点，通过异方差检验、残差的独立性检验、误差的正太分布检验以及多重共线性检验，说明该模型不违反回归的基本假设条件。

进而通过主成分回归（模型4）和逐步回归（模型5）进行降维，结果表明因变量与解释变量之间存在强烈的线性相关关系，且主成分回归和逐步回归相比全模型有更好的预测能力。

关键词：期权价格多元线性回归50ETF 多重共线性因子分析一、引言期权（option）是依据合约形态划分的一种衍生品，指赋予其购买方在规定期限内按买卖双方约定的价格（即协议价格或行权价格）购买或者出售一定数量某种金融资产（即标的资产）的权利的合约。

期权购买方为了获得这个权利，必须支付给期权出售方一定的费用，称为权利金或期权价格[1]。

2015年2月9日，上海证券交易所正式推出了我国首支场内交易期权——上证50ETF，翻开了境内场内期权市场的新篇章。

期权是与期货并列的基础衍生产品，是金融市场极为重要的金融工具之一。

自50ETF上市以来，市场规模逐步扩大。

2015年2月日均合约成交面值为5.45亿元，12月就达到了47.69亿元，增长了7.75倍；2月日均合约成交量为2.33万张，12月就达到了19.81万张，增长了7.5倍；2月权利金总成交额为2.48亿元，12月就达到了35.98亿元，增长了13.51倍[1]。

我国股票市场有上亿的个人投资者，是一个较为典型的散户市场[1]。

相较于专业投资机构讲，散户缺乏时间，精力以及专业分析，投资具有很大的投机行为。

对于这些投资者来说，期权价格的变动则是他们最为关注的问题，其变化直接影响到自身的收益。

在实际情况中，影响股票价格的因素很多，涉及到金融政策、利率政策以及国际市场等因素，其作用机制也相当复杂[2]。

因此，对于期权价格预测的研究，则可以降低投资者的投资风险，及时调整投资结构，从而保障自身的收益。

1作者简介：王某某，北京航空航天大学研究生邮箱：**************。

本文选择“50ETF购12月1.95（期权代码：10000629）”这支期权作为研究对象，根据过去一个月内期权的交易数据，以今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价为解释变量，通过多元线性回归模型，预测该期权的明日收盘价。

下文由如下几部分构成：第二部分介绍了本次研究的数据集，包括数据来源、和数据字段；第三部分重点介绍了各个多元线性回归模型，包括全模型及异方差检验，残差的独立性检验、误差的正太分布检验和多种共线性检验，在第4小节和第5小节分别采用主成分回归和逐步回归对模型加以改善；第四部分运用第三部分建立的各个模型对期权价格进行了预测；第五部分对本文研究进行了总结并未来的研究加以展望。

二、数据说明本次研究的数据来源于Wind资讯金融终端，从上面获取了“50ETF购12月1.95”这支期权自2016年10月24日至2016年11月24日（只包含工作日）共计24日的交易数据。

经过整理后得到最终的数据字段，见表1。

表 1 期权交易数据字段期权交易数据见附录1。

三、建模1 符号说明各个变量及其符号说明见表2。

表 2 各个变量及其符号说明变量符号明日收盘价Y今日开盘价X1今日收盘价X2今日最高价X3今日最低价X4今日结算价X5今日成交额X6今日成交量X7今日持仓量X8今日涨停价X9今日跌停价X102 解释变量与指标变量的散点图在建立模型之前，首先利用MATLAB绘制各个解释变量与指标变量（明日收盘价）之间的散点图，观察各个解释变量与指标变量之间的关系，散点图结果见图1。

图 1 各个解释变量与指标变量（明日收盘价）的散点图通过图一中的散点图可以看出，明日收盘价与今日收盘价、今日开盘价、今日最高价、今日最低价、今日结算价、今日持仓量、今日涨停价以及今日跌停价之间有较为明显的线性关系；而与今日成交额以及今日成交量之间的线性关系并不明显。

3 全模型通过散点图我们观察到指标变量与各个解释变量之间大致上为线性关系，所以考虑多元线性回归模型进行建模。

3.1 模型建立与求解首先建立各个解释变量与指标变量的全模型，即考虑如下模型：{Y =β0+β1X 1+⋯+β10X 10+ εε∼N (0,σ2)式中，β0，β1，…，β10，σ2都是与解释变量无关的未知参数，其中β0，β1，…，β10称为回归系数。

在MATLAB 中使用regress 函数即可求解此多元线性回归模型，求解结果见表3.表 3 MATLAB 求解全模型结果回归系数回归系数的估计值回归系数置信区间 β0 0.1555 -0.1938 0.5049 β1 1.8288 -0.9212 4.5787 β2 0.0586 -1.5671 1.6843 β30.6199-0.4249 1.6647β4-1.0532-1.9703 -0.1362β5-1.2208-3.8759 1.4342β60.0000-0.0000 0.0000β7-0.0000-0.0001 0.0000β8-0.0000-0.0000 0.0000β90.3233-1.0317 1.6783β1000 0R2= 0.9489 F= 26.7989 p< 0.0001 s2= 0.0001从上表容易看出模型（1）成立，此时指标变量与解释变量满足的回归模型为：Y=0.1555+1.8288X1+0.0586X2+0.6199X3−1.0532X4−1.2208X5+0.3233X9（模型1）在MATLAB中画出模型1的残差分布，见图2。

除第12个数据外其余残差的置信区间均包含零点，因此第12个点应当视为异常点，将其剔除后重新计算，得到模型2：图 2 模型1的残差分布Y=0.2484+1.5432X1+0.0291X2+0.7482X3−0.8726X4−1.1292X5+0.1584X9（模型2）模型2的R2= 0.9736，F= 49.1655，p< 0.0001，s2= 0.0001。

但同时我们发现，各个回归系数的置信区间仍然均包含零点。

画出模型2的残差分布，发现又出现了异常点，按照上面的方法剔除异常点直至没有异常点产生。

最终一共去掉了5个异常点（分别是2，12，15，22以及23），最终得到模型3：Y=0.3999+2.7664X1−0.5987X2+1.6607X3−1.3712X4− 3.1596X5−0.0001X7+0.6669X9（模型3）模型3的R2= 0.9969，F= 281.6079，p< 0.0001，s2< 0.0001。

可见模型2相当显著，各个回归系数的置信区间均不包含零点；但是去除的数据点有5个（总共23个），去除的异常点比较多，容易去除有用信息，所以我们只把模型3作为后期预测的一个对比模型，在之后的分析中，我们只考虑去除第12个异常点的数据。

接下来进行异方差检验，残差的独立性检验以及多重共线性检验。

3.2 异方差检验通过SPSS画出残差对预测值的散点图，见图3。

图 3 残差对预测值的散点图根据图3可以认为数据基本不存在异方差性，即认为随机误差具有相同的方差。

3.3 残差的独立性检验通过SPSS的Durbin-watson检验得到DW值为2.545，模型2中解释变量数量k（包括常数项）为7，样本数量n 为22，查DW分布表得到相应的d L= 0.510，d U=2.015。

由于d U<DW<4−d L，认为随机误差之间无自相关[3]。

3.4 误差的正态分布检验通过SPSS画出正态P-P图以及回归标准化残差频率分布直方图，见图4。

图 4 误差的正太分布检验图从上图可以认为误差服从均值为0的正态分布。

3.5 多重共线性检验多元线性回归模型的基本假设中要求设计矩阵X的列向量之间不存在密切的线性关系[3]，如果存在，就称它们之间存在多重共线性。

通过SPSS进行多重共线性诊断，结果如下表。

从上表可以看出绝大部分变量的VIF值远远大于10，说明严重存在多重共线性，针对多重共线性的问题，接下来用主成分分析加以处理。

4 主成分回归利用MATLAB对这个十个解释变量进行主成分分析，分析过程如下。

1）对原始数据进行标准化处理x ĩ=x i− μis i即每个元素的值减去该列的均值，然后除以这一列的方差。

2）计算相关系数矩阵R，结果见表表 5 解释变量的相关系数X1X2X3X4X5X6X7X8X9X10 X1 1.000.920.980.96 1.000.610.50-0.880.920.92 X20.92 1.000.900.960.910.430.31-0.880.990.99 X30.980.90 1.000.940.980.680.58-0.880.910.91 X40.960.960.94 1.000.950.460.34-0.840.960.96表 4 多重共线性诊断结果3）计算特征值和累计贡献率见表6表 6 各个解释变量的特征根和累计贡献率可以看出，前两个特征根的累计贡献率就达到了90%以上，主成分分析效果很好。

下面选择前四个主成分（累计贡献率99.47%）进行综合分析。

4）前四个特征根对应的特征向量见表7表7 前四个特征根对应的特征向量5）主成分回归模型求得的主成分回归模型如下：Y=0.204151+0.199353∗X1+0.044479∗X2+0.154424∗X3+0.082825∗X4+ 0.193987∗X5+0.000289∗X9+0.000353∗X10（模型4）5 逐步回归主成分回归求出的主成分是原始变量的线性组合，表示新的综合变量。

接下来使用逐步回归的方法来筛选变量。

在逐步回归中，决定一个变量时候有必要进入模型或者从模型中剔除时，常用的方法是偏F检验[3]，关于偏F检验这里不做赘述。

在MATLAB中使用stepwise函数进行逐步回归[4]，运行结果如图5图 5 逐步回归结果求得的逐步回归模型如下：Y=1.0103∗X3−0.6147∗X4+0.6815∗X9−0.7097∗X10（模型5）四、预测接下来我们利用上面求得的模型来进行期权价格预测。

e商务文档

回归大作业-基于多元线性回归的期权价格预测模型

相关文档推荐：