当前位置:文档之家› 第六讲 某车企汽车年销量预测案例

第六讲 某车企汽车年销量预测案例


模型拟合效果的判断
2015-4-20
信息技术教学中心
19
模型拟合效果的判断
③ A. B. C. D. E. F. 绘制残差序列图 在“保存”子对话框中,选中“标准化残差”复选框 确定 依次单击“分析”——“预测”——“序列图” 变量框:选入ZRE_1 时间轴标签框:选入year 确定
2015-4-20
数据分析与挖掘
Data Analysis & Mining 某车企汽车年销量预测案例
2015-4-20
信息技术教学中心
1
学习要点
• 分析方法: -散点图、序列图、线性回归、曲线拟合、非线性回归 • 分析过程
– 转换:计算变量、个案排秩 – 表:设定表 – 统计图:直方图、散点图、序列图 – 描述统计:序列图
信息技术教学中心
6
数据理解
2015-4-20
信息技术教学中心7Fra bibliotek数据理解
根据散点图的显示1988~1992年的数据出现异常,因此将 在后面建模时把其删除,不再进入后续分析。
2015-4-20
信息技术教学中心
8
筛选数据并进行变量转换
筛选数据: ① 数据——选择个案 ② 选择“如果条件满足”——如果——输入“year>=1993” ③ 继续 ④ 输出——删除未选定个案 ⑤ 确定 变量转换: ① 转换——计算变量 ② 目标变量:time ③ 数字表达式:$casenum ④ 确定
信息技术教学中心
20
2015-4-20
信息技术教学中心
21
存储预测值和区间估计值
本案例建立模型,不是为了找到年代对销量的影响,而是 为了对因变量进行预测,因此需要在数据集中计算出预测 值、个体参考值范围等。在“保存”子对话框中,预测值、 残差、预测区间等都可以作为新变量存储在数据集中。本 例需要预测区间和预测值,相应的操作如下: ① 在数据集中新增三条记录,变量id分别等于10,11,12 ② 重复执行“回归”对话框 ③ “保存”子对话框,选中“未标准化预测值”、“单值 预测区间”两个复选框。
信息技术教学中心
33
分析结果
2015-4-20
信息技术教学中心
34
不同模型效果比较
进入“保存”子对话框 选中“预测值” 确定 依次单击“分析”——“预测”——“序列图” “变量”列表框:选入三次方曲线的预测值FIT_1、LCL_1 和UCL_1,以及非线性模型的预测值PRED_ “时间轴标签”列表框:选入year 确定
2015-4-20
信息技术教学中心
22
用曲线估计过程同时拟合多个曲线 模型
依次单击“分析”——“回归”——“曲线估计” “因变量”列表框:sales “自变量”列表框:time 模型:选中二次项、立方和指数分布 选中“显示ANOVA表格”复选框 确定
2015-4-20
信息技术教学中心
2015-4-20
信息技术教学中心
35
项目总结与讨论
在本案例中,基于所有可用的历史销售数据,对未来一定 时期内的汽车年销量进行了预测,分析结果显示,过去几 年间销量呈加速上升的曲线趋势,通过对二次曲线,三次 曲线和指数曲线的拟合,发现三次曲线对历史数据的拟合 效果好。因此用三次曲线模型进行了未来3年的销量预测, 并给出了相应的销量预测区间。
2015-4-20
信息技术教学中心
12
变量变换后拟合线性回归模型

2015-4-20
信息技术教学中心
13
变量变换
转换——计算变量 Time2=time*time
2015-4-20
信息技术教学中心
14
二次方曲线直线化拟合
分析——回归——线性 0~1取值, 将sales选入“因变量”列表框,将time,time2 选入“自变 越接近 1越 好 量”列表框 确定
标准回 归系数
2015-4-20
信息技术教学中心
15
分析结果
通过系数表可以写出回归方程如下: 销量=138.976-5.998*time+1.821*time2 当time=0,即时间为1993-1=1992时,销量的模型估计值为 138.976,显然这个数值和实际值差的有点远,因为1993 年之前的数据趋势并不服从现在拟合的模型,所以这个估 计值没有实际的意义。 销量和时间的一次项负相关,二次项正相关。
2015-4-20 信息技术教学中心 30
利用非线性回归进行拟合
非线性回归模型在SPSS中可以采用NLR和CNLR两个过程拟 合,前者用于一般的非线性模型,后者用于带约束条件的 非线性模型拟合
2015-4-20
信息技术教学中心
31
构建分段回归模型

2015-4-20
信息技术教学中心
32

2015-4-20
2015-4-20
信息技术教学中心
28
观察模型误差项的序列图
首先绘制3个模型误差项的序列图,以观察随着年代的变 化,相应预测误差的变动趋势。如下: A. 依次单击“分析”——“预测”——“序列图” B. 变量框:选入ERR_1~ERR_3 C. 时间轴标签框:选入year D. 确定
2015-4-20
– 比较均值:均值
– 回归:线性、曲线估计、非线性回归
2015-4-20
信息技术教学中心
2
案例背景
现有某汽车企业1988——2001年的汽车销售量数据,如下表所示。为 了制定企业的长期市场发展计划,管理者希望能够预测出至2011年的汽 车销量。
年份 1 9 8 8 1 9 8 9 5 9 1 9 9 0 5 1 1 9 9 1 1 9 9 2 1 9 9 3 1 3 0 1 9 9 4 1 9 9 5 1 9 9 6 1 9 9 7 1 9 9 8 1 9 9 9 1 8 3 2 0 0 0 2 0 0 1
则说明残差独立,低于 下界则说明相互关联
一般地,若自变量数少于4个,统计量大于2,基本上肯定残 差间相互独立。
2015-4-20
信息技术教学中心
17
模型拟合效果的判断
② 残差分布的图形观察 在“绘制”子对话框中,选中“直方图”和“正态概率图” 复选框。结果如下:
2015-4-20
信息技术教学中心
18
2015-4-20
信息技术教学中心
5
数据理解
扩展阅读
简单地说,散点图在用于回归分析前的预分析时,可提供如下三类关键 信息
① 变量之间是否存在数量关联趋势。
② 如果存在关联趋势,那么是线性的,还是曲线的 ③ 数据中是否存在明显偏离散点图主体较远的散点,它们是否可能在
建模时成为强影响点。
2015-4-20
2015-4-20
信息技术教学中心
36
2015-4-20 信息技术教学中心 11
注意: 本案例使用回归模型对序列数据进行分析,数据的顺序代 表了时间变化的方向,相邻数据间非常容易出现相关性。因 此在本案例分析时残差有无相关时必须加以考察的。如果模 型的决定系数非常高,自相关趋势非常弱,则问题影响不大, 否则应当考虑使用自回归模型来分析。
2015-4-20
信息技术教学中心
4
数据理解
由于本数据比较简单,因此数据理解的重点可用放在两变 量间数据关联趋势的了解上,因此首先使用散点图对数据 的变化规律进行观察,步骤如下: ① 选择“图形”——“图表构建程序”菜单命令 ② 将散点图图标拖入画布 ③ 将year拖入X轴框,sales拖入Y轴框 ④ 确定
2015-4-20 信息技术教学中心 9
线性回归模型简介

2015-4-20
信息技术教学中心
10
回归模型的适用条件
线性趋势:自变量和因变量的关系是线性的,如果不是, 则不能采用线性回归来分析,可以通过散点图来判断。 独立性:可表述为因变量y的取值相互独立,之间没有联 系。反映到模型中,实际上就是要求残差间相互独立,不 存在自相关,否则应当采用自回归模型来分析。这可以用 D-W统计量来考察,另外一种常用的工具为自相关和偏相 关图,它们比D-W统计量更为直观和敏感。 正态性:就自变量的任何一个线性组合,因变量y均服从 正态分布。 方差齐性:就自变量的任何一个线性组合,因变量y的方 差均相同,实质上就是要求残差的方差齐性。
信息技术教学中心
29
模型的预测
根据上面的讨论,确定应当使用三次方模型进行预测,并 且预测的长度在3年以内比较恰当,为此采取和线性回归 相同的操作:在数据集中新增三条记录,变量id分别等于 10,11,12,然后再曲线拟合过程中操作 ① 依次单击“分析”——“回归”——“曲线估计” ② “因变量”列表框:sales ③ “自变量”列表框:time ④ 模型:立方 ⑤ “保存”子对话框 ⑥ “保存变量”:选中“预测值”和“预测区间” ⑦ 确定
23
分析结果
2015-4-20
信息技术教学中心
24
三次方
2015-4-20
信息技术教学中心
25
指数
2015-4-20
信息技术教学中心
26
拟合曲线比较图
2015-4-20
信息技术教学中心
27
模型拟合效果的判断
方法一、存储残差值 先将模型的残差存为新变量供分析中使用,操作如下: ① 进入“保存”子对话框 ② “保存变量”框:选中“残差” ③ 继续 再次运行曲线拟合过程,此时会生产ERR_1~ERR_3共3个新 变量,分别代表二次、三次和指数模型的误差项。为了便于 观察可以将他们的变量名标签分别改为二次方程、三次方程 和指数方程。
销量/ 6 万辆 5
7 1 1 0 6
1 1 1 3 4 4 5 5 6
相关主题