当前位置:
文档之家› 基于小波支持向量机回归的股票预测
基于小波支持向量机回归的股票预测
题, 之后被推广到函数的回归和预测领域中来。 假设训练样本集 {( x1, y1),...,( x n, y n)}, x i, y i ∈ R , 则支 持向量机回归模型的线性回归函数方程为: f ( x) = w ⋅ x + b (1)
为保证线性方程的平坦, 需寻找一个最小的 w , 因此 我们采用最小化欧几里德空间的泛数。假设所有训练数 据 ( x i, y i) 都可以在精度 ε 下用线性函数拟合, 那么寻找最 小 w 的问题可以表示为一个凸优化问题: 2 min 1 w 2 约束条件: yi - w ⋅ xi - b ε yi - w ⋅ xi - b ε (2)
理论新探
基于小波支持向量机回归的股票预测
李 坤 1, 谭梦羽 2
(1.西安财经学院 经济学院, 西安 710061; 2.西安电子科技大学, 西安 710071)
摘 要: 文章将小波理论与支持向量机方法相结合, 结合了二者的优势, 提出了一种小波支持向量机回归 的股票预测模型。该模型引入小波基函数来构造支持向量机的核函数, 得到了一个新的支持向量机模型。并 用 3 种大盘指数和 13 类不同行业的股票进行测试, 取得了良好的效果。 关键词: 机器学习; 小波核; 支持向量机; 股票预测 中图分类号: F224 文献标识码: A 文章编号: 1002-6487 (2014) 06-0032-05
由于股票价格指数波动的复杂性和大量的人为因素 参与, 我们迫切的需要一种有效的分析方法。近些年来, 支持向量机已然成为预测领域的新宠儿。支持向量机求 解分类问题与预测问题时, 首先将输入数据映射到一个高 维空间, 然后在高维空间求解分类的最大间隔, 最常用的 方法是利用核函数。核函数的应用使我们可以利用模型 处理非线性问题, 同时通过求解二次函数来训练, 克服了 神经网络的局部最优问题, 所以支持向量机具有良好的推 广能力。 1 小波支持向量机模型的建立 1.1 支持向量机回归原理 支持向量机 (SVM) 是由 Vapnik 等提出的, 它是基于统 计学习理论的 VC 维理论和结构风险最小化理论的机器学 习理论。起初, 支持向量机算法主要应用于模式识别的问
参考文献: [1]M. Couper, L. Lyberg. The use of Paradata in Survey Research[C].In tute, Sydney, Australia,2005. Proceedings of the 55th Session of the International Statistical Insti⁃
[7] 任莉颖, 邱泽奇, 李力, 严洁. 社会调查中职业问题编码的方式与质 [8]严洁,邱泽奇,任莉颖,丁华,孙妍,社会调查质量研究:访员臆答与干 预效果[J].社会学研究,2012,(2). 量研究[J].浙江大学学报 (人文社会科学版) ,2011,(5).
[2]R. M. Groves, M. Couper.Non-Response in Household Interview Sur⁃ veys[M],New York: John Wiley & Sons, 1998.
α α* φ( x i), φ( x j) + ∑ α i (ε i - y i) + min 1 ∑( α i - α* i )( j - j ) 2 i=1 i=1
j=1 n n
∫-∞
dω < +∞ (21) ω 则称 Ψ( x) 为基本小波或母小波。其中 L2 (R) 是平方
+∞
| Ψ(ω) |
行数据与哪一类题目的测量精度紧密相关?哪些并行数 据是受访对象合作的预测因子?哪些并行数据与调查实 施的效率有关联?等等。研究者们将面临着将并行数据 与元数据、 与调查管理进行关联研究的大量工作。 并行数据对整个调查数据质量的影响是不可忽视的, 它目前尚属于待挖掘利用的宝贵资源, 它所涵盖的大量信 息究竟能够怎样改善测量精度、 能够如何优化调查管理、 如何被智能化开发, 以及如何能被及时应用将成为研究者 们面临的紧迫课题。
x x f ( x) = ∑(α i - α* i ) φ( i), φ( ) + b
i=1 n n
| ξ |ε = ì í| ξ | - ε
î
* i
0
|ξ | ε |ξ | > ε
n
x x = ∑(α i - α* i ) K ( i, ) + b
i=1
(14)
(6)
由此可见, 核函数是整个支持向量机回归的核心。核 函数的引入巧妙地避开了高维空间数学运算复杂度的问 题, 使得支持向量机可以在较少的样本下, 有效处理个高 维问题。 其中核函数满足:
K ( x, x') = φ( x), φ( x')
建立拉格朗日方程:
2 L(w, ξ i, ξ ) = 1 w + C ∑ α i (ε + ξ i - y i + w, x i + b) 2 i=1 * * * x - ∑ α* i (ε + ξ i + y i - w, i - b) - ∑ (η i ξ i + η i ξ i ) i=1 i=1 n n
将式 (8) 代入式 (7) 得:
α α* φ( x i), φ( x j) + ∑α i (ε i - y i) + ∑α i*(ε* min 1 ∑( α i - α* i )( j - j ) i - y i) 2 i=1 =
(
x, x' + c , p ∈ N, c 0
统计与决策201 4 年第 6 期·总第 402 期
(责任编辑/亦
民)
32
理论新探
约束条件: ìyi - w ⋅ xi - b ε + ξi ï * ïyi - w ⋅ xi - b ε + ξi i = 1,..., n íξ 0 ï i ïξ * 0 î i
∑αi*(ε*i - yi)
[3] 有关此项目的具体情况请参看杨明等.1995~2004 北京社会经济 [4]R. Groves, F. Fowler, M. Couper, R. Tourangeau, J. Lepkowski. Sur⁃ [5]J. Drew, W. Fuller.Modeling Nonresponse in Surveys with Callbacks [C]. In Proceedings of the Section on Survey Research Methods of the American Statistical Association,1980. vey Methodology[M].New York: John Wiley, 2004. 发展年度调查数据报告[M].北京: 北京出版社, 2007.
(7)
(15)
n n
对上式中的参数 w , ξ i* 的偏导都应为零, 即: b, ξi ,
∂L = w L= ∑(αi - α*i ) xi = 0 ∂ ∑(αi - α*i ) = 0 ∂w ∂ b i=1 i=1 ∂L = C - α - η = 0 i i ∂ξ i
n n
将式 (15) 代入式 (10) 则得到:
)
p
(17)
(2) 高斯基 RBF 核函数:
æ x - x' 2 ö ç ÷ ÷ K ( x, x ) = expç ç ç ÷ 2σ 2 ÷ è ø (3) Sigmoid 核函数: K ( x, x') = tanh(υ( x, x') + c)
'
ì n α α* ï∑( i - i ) = 0 s.t. íi = 1 (9) ïα α* , ∈[0, C ] î i i 解式 (9) 是一个二次规划的问题, 可解出一组最优 * Lagrange 乘子 α i, α i 。 ì - -x ˉ = ∑(α i - α* ï i) i ïw i=1 (10) í ï ˉ=-1 w ïb ˉ ,( x r + x s ) 2 î 其中 x r 和 x s 为满足不同约束的任意向量。 x 即 对于式 (10) 中, 与 α i ≠ 0 和 α* i ≠ 0 对应的样本 i ,
{
(3)
引入松弛因子 ξ i 0 和 ξ i* 0 , 回归估计模型可转化
2 n
为:
min 1 w + C ∑(ξ i + ξ i*) 2 i=1
(4)
基金项目: 陕西省哲学社会科学规划项目 (SC11E011) 作者简介: 李 坤 (1964-) , 女, 陕西铜川人, 副教授, 研究方向: 证券投资。
α α* x x α α* * min 1 ∑( α i - α* i )( j - j ) K ( i, j) + ∑ i (ε i - y i) + ∑ i (ε i - y i) 2 i=1 i=1 i=1
j=1 n
(8) 常用的核函数有以下 4 种: (1) 多项式核函数:
n n
(16)
∂L = C - α * - η * = 0 i i ∂ξ i
d
(
ü )ù úï ï ú
2
úý úï ï ûþ
(33)
伸缩因子, b 称为平移因子。 在式 (22) 中, 改变 a 和 b 的值, 等效于对母小波进行 了 伸 缩 核 平 移 ,从 而 得 到 一 组 小 波 基 函 数 {Ψa, b( x)}a > 0, b ∈ R 。 数作用于能量有限信号 f ( x) , 则小波变化的定义如下:
在不灵敏区边界上或外面的样本, 称为支持向量 (SV) , 从 而有:
x w = ∑ (α i - α* i) ⋅ i
i ∈ SV