数据挖掘案例分析小组作业
2011统计
建模 主成分神经网络
• 考虑到输入层指标过多,采用主成分分析提取主要因素在进行 神经网络预测
Modelling
2011统计
主成分分析
• 共提取出5个主因子,这与研究中所选用的企业的五类指标相吻 合;
• 5个主因子提取了原始数据28个指标近70%的信息;
2011统计
主成分-神经网络预测结果分析
BP神经网络
• 直接用BP-神经网络模型分别预测周涨跌和月涨跌情况
2011统计
BP神经网络预测结果分析
月涨跌作为输出:
• • 模型结构(28,8,1) 预测精度:81.0%
月涨跌 重要性 周涨跌 重要性
营业毛利率
成本费用利润率 加权净资产收益率
0.0847
0.0777 0.0581 0.056 0.0536 0.0533 0.0491 0.0476 0.0444 0.04
影响股票周涨跌(短期)的因素中第四个因子尤其重要,几乎达 到了50%,第四个因子主要是每股未分配利润指标,投资者应该 注意该项指标
2011统计
建模
Modelling
K均值聚类
仍然以传媒业股票为例,首先利用聚类方法将所有传媒类股票进行分类: 用K均值聚类法将所有股票分为5类
2011统计
C5.0决策树
数据挖掘案例分析结课报告
IBM SPSS Modeler 14.1
企业财务信息挖掘与股票走势分析
2014.06.06
报告提要
年报是反映企业经营状况的重要信息途径,对投资者也具有及其重大 的参考价值,对企业股价走势的影响也不可小视。本研究利用IBM SPSS Modeler 14.1挖掘企业年报财务指标中的信息并对对股票走势 分析预测,主要用到了以下方法:
YOU!
2012.06.06
每股未分配利润
营业毛利率 营业利润率 净利润现金含量 基本每股收益 净利润增长率 存货周转率 每股经营现金流量 营业收入增长率 净资产增长率
0.0709
0.0677 0.0641 0.0628 0.052 0.0519 0.0519 0.0503 0.0496 0.0433
周涨跌作为输出:
• • 模型结构(28,7,1) 预测精度:71.4%
应收账款周转率 营业利润增长率 每股现金流量增长率 速动比率 存货周转率
预测月涨跌精度更高
对股票月涨跌(长期)来说 产权比率 重要的是营业毛利率、成本费用 每股收益扣除 利润率和应收账款周转率等,对 企业盈利能力和运营能力指标比较看重
影响股票周涨跌(短期)的因素中最重要的是每股未分配利润, 其他有营业毛利率、营业利润率等,可见短期来说每股指标和盈 利能力指标比较重要
偿债能力指标C
运营能力指标Y
盈利能力指标L
发挥能力指标F
营业收入增长率 F1 总资产增长率F2
应收账款周转率Y1 营业利润率L1
每股收益-扣除P2
速动比率C2
存货周转率Y2
营业净利率L2
每股资本公积金P3 资产负债比率C3
每股未分配利润P4 产权比率C4 每股净资产P5 每股经营现金流量 P6
流动资产周转率Y3 营业毛利率L3
• 构建神经网络模型分析预测企业 财报发布后股票月度涨跌情况 • 主成分分析后结合神经网络预测
2011统计
目录
CONTENTS
1 2
商业理解
数据理解&准备
3
4
建模
评估&部署
2011统计
商业理解
Business U
商业理解
Business Understanding
• 首先对股票涨跌的神经网络预测发现,对月涨跌的预测精度更 高,说明企业财务信息对股票的长期走势影响更为明显 • 在在应用主成分神经网络预测后发现,对月涨跌的预测精度有 所提高,说明在输入层指标比较多的情况,可以先进行主成分 分析,尽管损失了一定的信息但对于预测并不是全无好处
2011统计
THANK
2011统计
使用指数平滑模型:
2011统计
使用指数平滑模型:
2011统计
拟合的趋势和原始序列趋势图如下:
6月7日的收盘价根据预测为:15.75 预测上下区间为(14.69,16.81)
2011统计
评估&部署
Evaluation & Deployment
2011统计
评估和部署
Evaluation & Deployment
2011统计
数据理解&准备
Data Understanding&Preparation
2011统计
数据理解&准备
Data Understanding&Preparation
• 股价影响因素众多,经济形势、国家宏观经济政策,行业,企 业自身因素等,若不加筛选的寻找样本分析,必然造成样本数 据噪声过大,研究意义不大; • 选择数据应尽可能的减少其他噪声的影响,本文收集整合了传 媒娱乐这一行业29家上市公司作为实证分析样本,选用2010年 -2012年3年财报数据,剔除其中的ST公司、数据不齐全年份, 得到55个样本;
$F-Factor-3
0.1845
$F-Factor-2
0.1298
$F-Factor-5
0.0983
$F-Factor-1
0.1167
预测月涨跌精度更高
对股票月涨跌(长期)来说第一个因子 和第二个主因子比较重要, 基本每股收益和每股收益扣除 比重较 大
$F-Factor-4 0.0647 $F-Factor-3 0.0216
• 其中运用到的财务指标,综合提取了财报中的数据并进行了归 类,涵盖了企业的各个方面,包含5类共28个指标。
• 预测变量包括:年报发布后一周股票涨跌情况、一月股票涨跌 情况
2011统计
数据理解&准备
每股指标P
基本每股收益P1 流动比率C1
Data Understanding&Preparation
固定资产周转率Y4 成本费用利润率L4 总资产周转率Y5 总资产报酬率L5
营业利润增长率 F3
净利润增长率F4 净资产增长率F5
净利润现金含量Y6 加权净资产收益率 L6 每股现金流量增长 率Y7
输出变量:股票周涨跌、股票月涨跌
2011统计
建 模
Modelling
2011统计
建模
Modelling
• 通过财务报表的财务数据,包括现金流量表、资产负债表、和 利润表,可以定量的认识深层次的了解公司各个层次的运营状 况,无论是管理者还是投资者,财务报表无疑都是快速准确了 解公司的重要途径,对财务报表的分析之后,投资者的期望则 间接地体现在对与该公司的股票的操作,看好则会买进,其股 价自然会上涨,反之则反。 • 通过对财务分析,进一步预测股票在未来一段时间内的走势, 具有很重要的投资价值,同时对指标的重要性进行分析,也可 以为企业管理者提供管理建议,发现不足,促进企业更好的发 展。
再利用C5.0决策树对这五类变量进行划分,可以看出聚类的标准: 加权净资产收益率>5.5%;营业净利率>9.8%;产权比率大于<198%; 资本公积金>5.26 这样盈利能力强而风险低的股票只有第二类股票 而在所有时间段都属于第二类只有一支:时代出版
2011统计
时间序列模型
我们再利用时间序列分析方法,对时代出版这支股票进行预测:
月涨跌作为输出:
• • 模型结构(5,1,1) 预测精度:85.7%
月涨跌 重要性 周涨跌 重要性
$F-Factor-2
0.3691
$F-Factor-4
0.4913
周涨跌作为输出:
• • 模型结构(5,2,1) 预测精度:71.4%
$F-Factor-1
0.2834
$F-Factor-5
0.2406