有问题到淘宝找“大数据部落”就可以了股票实际价格和预测价格差异分析摘要:主要思路为了准确的估计股票价格,了解股票的一般规律,更好的为资本市场提供参考意见和帮助股民进行投资股票作出正确的决策,本文从股票价格指数与整个经济环境角度出发,采用多元回归分析方法,应用月度时间序列数据,通过选取综合反映股票市场上所有公司股票价格整体水平的指标建立了线性回归模型,得出了股票价格趋势变动的影响因素.关键词:回归模型;指数模型;股票价格;预测一、引言主要思路为了准确的估计股票价格,本文从股票价格指数与整个经济环境角度出发,采用多元回归分析方法,应用月度时间序列数据建立了线性回归模型,具体分析步骤:1.关系分析基于以上原理,为大致了解股票价格与诸因素之间的关系,先分别绘制股票价格与各个因素之间的散点图,并分析它们之间的关系.股价用上证A股指数来表示,这样可以减少人为因素对股票价格的影响,尽量将注意力集中在我们假设选用的自变量上.我们采用的数据是2012年和2015年上半年的月度数据,分析影响我国股市趋势的因素。
之所以选取2012年和2015年7月的统计资料是基于以下两点考虑:中国股市发展时间较短,采用年度数据会因为样本量太小而使得回归分析失去意义;数据取得的存在较大难度,因季度数据不全而只能选取月度数据.因此选取2012年和2015年7月份月度数据作为样本.2.指数平滑时间序列预测模型3.选择多项式回归模型3.1变量选取通过向前向后逐步迭代回归模型筛选出显著性较强的变量进行回归建模。
3.2显著性检验根据F值和p值统计量来判断模型是否具有显著的统计意义。
3.3拟合预测使用得到的模型对实际数据进行拟合和预测。
有问题到淘宝找“大数据部落”就可以了4.分析得出结论得出各个自变量之间的关系,以及它们对因变量的影响极其经济意义。
二、获取数据及预处理获取2012年1月到2015年7月的上证指数数据,货币供应量,消费价格指数人民币美元汇率和存款利率数据绘制变量之间的散点图plot(data)有问题到淘宝找“大数据部落”就可以了par(mfrow=c(2,2))plot(美元汇率,上证指数数据)plot(人民币存款利率,上证指数数据)有问题到淘宝找“大数据部落”就可以了三、指数平滑时间序列模型预测表示时间序列## Jan Feb Mar Apr May Jun Jul## 2012 263.670 19.925 240.655 131.620 245.665 368.020 ## 2013 -51.615 -156.545 69.235 -46.705 -329.040 -181.635 -2.555 ## 2014 -65.535 87.565 79.200 37.740 -157.900 -118.655 59.360 ## 2015 -50.230 142.300 -11.580 -25.710 47.830 -92.995 -115.865 ## Aug Sep Oct Nov Dec## 2012 -130.350 -216.610 125.145 163.415 44.480## 2013 145.310 5.895 236.405 97.135 -142.555## 2014 -176.755 -108.775 -71.055 32.655 -149.320## 2015有问题到淘宝找“大数据部落”就可以了利用HoltWinters函数预测:p.hw<-forecast.HoltWinters(m.hw, h=24) #h=24表示预测24个值有问题到淘宝找“大数据部落”就可以了四、进行多元回归模型并进行分析summary(lmmod)#显示回归结果## Call:## lm(formula = y ~ x1 + x2 + x3 + x4, data = data)#### Residuals:## Min 1Q Median 3Q Max## -543.94 -90.09 1.69 113.01 500.68#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) -3.457e+04 9.319e+03 -3.710 0.000661 ***## x1 3.325e-03 1.369e-03 2.430 0.019950 *## x2 1.341e+01 2.663e+01 0.503 0.617562## x3 4.787e+01 1.400e+01 3.420 0.001511 **## x4 7.870e+02 3.380e+02 2.328 0.025322 *## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1有问题到淘宝找“大数据部落”就可以了#### Residual standard error: 246.5 on 38 degrees of freedom## Multiple R-squared: 0.4804, Adjusted R-squared: 0.4257## F-statistic: 8.783 on 4 and 38 DF, p-value: 4.012e-05回归结果分析从输出结果可以看出,回归方程为,变量和的统计量的估计值分别为-3.457e+04,3.325e-03,1.341e+01,4.787e+01和7.870e+02,除了x2以外由对应的值都比显著性水平0.05小,可得两个偏回归系p数在显著性水平0.05下均显著不为零。
进一步地剩余方差的估计值,f统计量的估计值为8.783,由对应的p 值4.012e-05说明,回归方程是显著的。
可决系数R,修正的可决系数R为0.48左右说明方程的拟合效果较好。
拟合效果图形展示以上证指数的原始数据作为x轴,回归拟合值为轴作图,在xy面上的点用直线连接见图1。
有问题到淘宝找“大数据部落”就可以了"货币供应量数据","居民消费价格指数","美元汇率","人民币存款利率"之间原始图和拟合值的关系散点图par(mfrow=c(2,2))plot(货币供应量数据,上证指数数据,type="l")plot(人民币存款利率,上证指数数据,type="l")lines(人民币存款利率,fitted(lmmod),col="red")有问题到淘宝找“大数据部落”就可以了置信区间与预测区间:置信区间是给定自变量值后,由回归方程得到的的预测值(实0y际上是的平均值)的置信区间;预测区间是实际值的置信区间,在这里称为预测区间。
0y0y 预测区间要比置信区间稍大,命令与显示结果如下predict(lmmod,int="c")## fit lwr upr## 1 2475.242 2251.506 2698.979## 2 2499.775 2292.238 2707.313## 3 2577.019 2407.631 2746.407## 4 2591.886 2430.249 2753.522## 5 2587.035 2430.370 2743.701## 6 2693.336 2533.406 2853.266## 7 2700.174 2534.939 2865.409## 8 2721.134 2574.972 2867.296## 9 2739.653 2604.015 2875.291。
## 38 2292.462 2133.936 2450.987## 39 2431.019 2261.307 2600.730有问题到淘宝找“大数据部落”就可以了## 40 2353.466 2189.958 2516.974## 41 2428.789 2234.366 2623.211## 42 2359.794 2122.260 2597.327## 43 2165.294 1879.112 2451.475predict(lmmod,int="p")## fit lwr upr## 1 2475.242 1928.352 3022.133## 2 2499.775 1959.309 3040.241## 3 2577.019 2050.024 3104.014## 4 2591.886 2067.331 3116.441## 5 2587.035 2063.991 3110.080。
## 39 2431.019 1903.920 2958.118## 40 2353.466 1828.331 2878.601## 41 2428.789 1893.222 2964.355## 42 2359.794 1807.115 2912.473## 43 2165.294 1590.027 2740.560残差分析:残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。
命令语句为plot(lm.1),显示结果如下par(mfrow=c(2,2))plot(lmmod)。