当前位置:文档之家› 股票信息数据挖掘实验报告

股票信息数据挖掘实验报告

广东外语外贸大学信息科学技术学院股票信息数据挖掘实验报告日期:2011-1-7一、摘要数据挖掘是数据库应用和研究的一个新领域,其目标是通过对历史数据的分析统计得出用户感兴趣的结果。

在股票交易事务处理中,每天有以交易信息为主的大量数据汇入数据仓库,这些数据无疑对股民了解股市的走势,做出正确的投资决策;经济学家分析不同层次用户的投资行为和各种股票之间的关系,以及及时发现股市中的非正常行为;各上市公司和政府部门出台新的方案等诸多方面具有重要的参考价值。

作为市场经济重要特征的股票市场,从诞生的那天起就牵挂着数以千万投资者的心。

高风险高回报是股票市场的特征,因此投资者们时刻在关心股市、分析股市、试图预测股市的发展趋势。

一百多年来,一些分析方法随着股市的产生和发展逐步完善起来,如:道氏分析法、K线图分析法、柱状图分析法、点数图分析法、移动平均法,还有形态分析法、趋势分析法、角度分析法、神秘级数与黄金分割比螺旋历法、四度空间法等,随着计算机技术在证券分析领域的普及与应用,不断推出新的指标分析法。

然而,严格讲这些方法仅仅是分析手段,还不能直接预测股市的动态。

此外,人们也试图用回归分析等统计手段建立模型来预测股市。

然而,利用传统的预测技术进行股市预测有一个最根本的困难,那就是待处理的数据量非常巨大。

由于股市的行情受到政治、经济等多方面因素的影响,其内部规律非常复杂,某些变化规律的周期可能是一年甚至是几年,因此需要通过对大量数据的分析才能得到,而传统的预测技术预测效果并不理想。

近十年间,数据挖掘技术的研究工作取得了很大的进展,各种数据挖掘技术的应用极大地推动了人们分析、处理大量数据信息的能力,并为人们带来了很好的经济效益,因此可以预见数据挖掘技术在股市预测中将会有很大的潜力。

二、研究内容本实验以数据挖掘技术为基础,对股票的走势进行分析预测。

目标为使用数据挖掘中的几种常用方法建立预测模型,通过对预测过程及预测结果的分析,来寻求数据挖掘算法与股票预测的结合点。

通过对近四年的股票全景与个股的分析,经过预处理后用weka对数据进行分类与关联的进一步挖掘,实地体验数据挖掘在股票预测领域起的作用。

三、数据挖掘过程数据挖掘是一个反复的过程,包含多个相互联系的步骤,如定义和分析主题、数据预处理、选取算法、提取规则、评价和解释结果、将模式构成知识,最后是应用。

1.问题定义进行数据挖掘前,首先要分析股票领域,了解股票领域的有关情况,熟悉背景知识。

在确定需求后,对现有资源如已有的历史数据进行评估,确定是否能够通过数据挖掘技术来满足需求,然后将进一步确定数据挖掘的目标和制定数据挖掘计划。

2.数据准备数据挖掘所处理的数据集通常不仅具有海量数据,而且可能存在大量的噪声数据、冗余数据、稀疏数据或不完全数据等。

数据准备包括数据抽取、清洗、转换、和加载,具体包括数据的清洗、集成、选择、变换、规约,以及数据的质量分析等步骤。

3.建立模型数据挖掘中的建模实际上就是利用己知的数据和知识建立一种模型,这种模型可以有效地描述已知的数据和知识,希望该模型能有效地应用到未知的数据或相似情况中。

在数据挖掘中,可以使用许多不同的模型:关联规则模型、决策树模型、神经网络模型、粗糙集模型、数理统计模型、时间序列分析模型。

4.评价模型数据挖掘得到的模式有可能是没有实际意义或没有实用价值的,也有可能不能准确反映数据真实意义,甚至在某些情况下是与事实相反的,因此对于数据挖掘的结果需要进行评估。

确定数据挖掘是否存在偏差,挖掘结果是否正确,确定哪些是有效的、有用的模式,是否能满足需求。

5.评估评估的方法一种是直接使用原先建立的挖掘数据库中的数据来进行检验,也可以另找新的测试数据并对其进行检验,另一种办法是使用实际运行环境中的当前数据进行检验。

四、挖掘成果1.用分类C4.5算法挖掘股票全景数据集(2010.12.28-2011.01.04)(1)原始数据集日期代码名称涨幅%% 现价日涨跌买入价卖出价……20101227 000001 深发展A-2.25 16.07 -0.37 16.07 16.08 20101227 000002 万科A-2.89 8.75 -0.26 8.74 8.75 20101227 000004 ST国农 -2.99 11.7 -0.36 11.7 11.7220101227 000005 世纪星源-3.58 3.77 -0.14 3.77 3.78 20101227 000006 深振业A-4.71 7.28 -0.36 7.27 7.28 20101227 000007 ST零七 -1.83 8.58 -0.16 8.58 8.5920101227 000008 ST宝利来-2 11.78 -0.24 11.77 11.7920101227 000009 中国宝安-4.44 16.15 -0.75 16.14 16.15……共12047条记录,20维属性。

经过多次数据预处理,得到数据集如下:日期换手%% 今开/昨收最高价比收盘最低价比收盘市盈(动)振幅%% 涨跌20101231 85.68 1.2270 higher lower 166.84 20.7 1 20110104 2.55 0.9954 same lower 54.56 12.79 1 20101229 6.92 0.9928 higher lower 235.83 12.86 1 20110104 5.91 1.0061 same lower 33.41 12.44 1 20101229 6.89 0.9963 same lower 71.31 12.2 1 20101230 17.79 0.9859 higher lower 48.09 12.48 1 20101227 55.62 1.0322 higher lower 65.01 13.34 1 20101230 2.47 0.9977 higher lower 892.36 12.15 1 ……共11632条记录,8维属性。

挖掘结果如下:置信因数取0.1Number of Leaves : 26Size of the tree : 47准确率85%取置信因数1.0E-4Number of Leaves : 13Size of the tree : 21准确率约85%,并且当置信因数继续往小取时,分支数不再改变。

2.用聚类Apriori算法挖掘个股000005世纪星源(2006.01.12-2010.12.24)(1)原始数据集日期开盘最高最低收盘成交量成交额2006-1-11 1.03 1.04 1.02 1.03 3372554 5725193.5 2006-1-12 1.02 1.04 1.01 1.04 4091492 6919504 2006-1-13 1.04 1.05 1.02 1.03 3262149 5545958.5 2006-1-16 1.04 1.04 1.01 1.02 3196712 5400217 2006-1-17 1.01 1.05 1 1.04 4720177 80446882006-1-18 1.04 1.05 1.03 1.04 5126617 8774786 ……共1106条记录,7维属性。

经过多次数据预处理,得到数据集如下:年份是否高开昨最高=昨收盘昨最低=昨收盘成交量增长成交额增长开盘比前五天均价收盘比前五天均价涨跌2006 -1 0 0 1 1 -1 1 1 2006 0 1 0 0 0 1 -1 -1 2006 1 0 0 0 0 1 -1 -1 2006 -1 0 0 1 1 -1 1 1 2006 0 0 0 1 1 1 1 0 2006 0 0 0 0 0 1 1 0 2006 0 0 0 1 1 1 -1 -1 ……共1105条记录,9维属性。

挖掘结果如下:最小支持度取0.48,最小置信度取0.8。

.五、结论用分类C4.5算法挖掘股票全景数据集,经过多次数据预处理后,20维属性缩小到8维,但是对于一万多条数据的庞大且混乱的数据集来说,依然没什么特别的结果。

这与我们的知识相吻合,股票的涨跌并不能用简单的规律挖掘就能得出结果。

用聚类Apriori算法挖掘个股000005世纪星源,个股对全领域的代表性有限,但是我们依然有一些小小的发现。

成交额与成交量基本上是共同升降(98%、98%)的;大部分股票的收盘价都不是当天的最高价或最低价(92%、87%);成交量下降的股票,前一天不会在最低价收盘(92%),对成交额亦然(91%);开盘价创近五天均价新高,则前一天不会在最低价收盘(96%),对收盘价亦然(95%)。

这些数据对股票预测也许没有决定性的影响,但也算是我们实验的一个小发现。

六、课程体会数据挖掘是一门很有前景的学科,其预测、分类等功能广泛应用在各个领域。

通过这一学期的学习,我们基本掌握了数据挖掘的基础技术,了解了数据挖掘的基本原理,并学会用weka进行简单的数据挖掘实验。

但是实际操作并不如想象中那么简单,一个原始数据集,要从数据预处理开始一点一点地添加删减,拼造出可供挖掘的数据集,需要比较漫长的过程以及细心地调试。

有时候一个很混乱或者高维的数据集不见得会挖出可观的结论。

对于数据挖掘领域,我们需要学习的东西还有很多。

感谢李霞老师一个学期以来的指导。

七、分工及自评实验基本上合作完成,分工略有侧重。

:主要负责数据处理与实验,评分:95。

:主要负责前期资料收集整理,评分:95。

:主要负责后期文档编纂,评分:95。

相关主题