数据挖掘的标准流程与工具
数据挖掘以 后 750,000 $750,000 9,000 $125
$1,125,000 $375,000 40,000 $335,000
差别
(250,000) ($250,000)
(1,000) $0
($125,000) $125,000 $40,000 $85,000
第二部分:数据挖掘标准流程 ——CRISP-DM
• 20世纪中后期开始出现数据仓库思想的
萌芽ቤተ መጻሕፍቲ ባይዱ
• 1992年W.H.Inmon在Building the Data
Warehouse一书中提出数据仓库的概念。
• 1992年,E.F.Codd提出数据仓库多维分
析的概念,和12条OLAP的准则
• 各大数据库厂商纷纷推出自己的产品
– IBM
– Oracle
CRISP-DM简介
• CRISP-DM是CRoss-Industry Standard Process-Data Mining的缩写 • 由SPSS、NCR、Daimler-Benz在1996年制定 • CRISP是当今数据挖掘业界通用流行的标准之一 • 它强调数据挖掘在商业中的应用,解决商业中存 在的问题,而不是把数据挖掘局限在研究领域
• 反映一个部门内数据的动态特征,即表达
数据流程
• 数据库中的数据模式与实际业务中的数据
有很好的对应关系
• 数据的组织方式没有体现数据库的原本意
图——数据与处理的分离。
面向主题的数据组织
• 抽取主题 • 确定每个主题所应包含的数据内容。
大纲
• 什么是数据挖掘
• 数据挖掘的标准流程:CRISP-DM • 数据挖掘工具——SPSS Clementine简 介
数据挖掘的标准流程与工具
路漫漫其悠远
少壮不努力,老大徒悲伤
从数据库到数据仓库
• 传统的数据库技术——以单一的数据资源为中心,着
重事务处理,
• 竞争环境要求科学、准确、快速的决策。 • 传统数据库不适宜DSS:
– 处理的性能特性不同 • 事务处理:数据的存取操作频繁,响应要求高、并发性好 • 分析处理:占用系统资源多,运行速度慢,用户少
CRISP-DM
• 商业理解 • 数据理解 • 数据准备 • 建立模型 • 模型评估 • 模型发布
第一部分:什么是数据挖掘?
数据挖掘都干了些什么?
英国电信需要发布一种新的产品 ,需要通过直邮的方式向客户推 荐这种产品。。。。。。
使直邮的回应率提高了100%
数据挖掘都干了些什么?
GUS日用品零售商店需要准确 的预测未来的商品销售量,降 低库存成本。。。。。。
通过数据挖掘的方法使库存成本比原 来减少了3.8%
– 数据集成问题 • 事务处理:只需与自己相关的数据 • 分析处理:要求数据全面
– 数据动态集成问题 • 分析处理:需要数据动态集成 • 事务处理:只具备静态集成、无法动态集成
– 历史数据问题 • 事务处理:只处理当前数据 • 分析处理:必须对历史数据进行详细分析
– 数据的综合问题
从数据库到数据仓库
数据挖掘都干了些什么?
汇丰银行需要对不断增长的 客户群进行分类,对每种产 品找出最有价值的客户。。 。。。。
营销费用减少了30%
数据挖掘都干了些什么?
美国国防财务部需要从每年上 百万比的军火交易中发现可能 存在的欺诈现象。。。。。。
发现可能存在欺诈的交易,进行深 入调查,节约了大量的调查成本
数据挖掘都干了些什么?
– Informix
– Sybase
什么是数据仓库
• “数据仓库是作为DSS服务基础的分析型
DB,用于存放大容量的只读数据,为制定 决策提供所需的信息”
• “数据仓库是与操作型系统相分离的、基
于标准企业模型集成的、带有时间属性的、 面向主题及不可更新的数据集合。”
• 数据仓库将分布在企业网络中不同信息岛
上的业务数据集成到一起,存储在一个单 一的集成关系型数据库中,利用这种集成 信息,可方便用户对信息的访问,更可使 决策人员对一段时间内的历史数据进行分 析,研究事物发展走势
操作型数据与分析型数据的区别
操作型数据
分析型数据
细节的
综合的、或提炼的
在存取瞬间是准确的 代表过去的数据
可更新
不可更新
预先知道操作需求 预先不知道
– 面向主题的数据组织方式(是在较高层次上对 分析对象的数据的完整、一致的描述,能完整、 统一地刻画各个分析对象所涉及地企业的各项 数据以及数据之间的联系)
• 数据是集成的 • 数据不可更新 • 数据随时间不断变化
面向应用进行数据组织的特点
• 对相关组织、部门进行调查,收集数据库
的基础数据及其处理过程,重点在于数据 和处理
美国国内税务局需要提高对 纳税人的服务水平。。。。 。。
合理安排税务官的工作,为纳税人提供 更迅捷、更准确的服务
通过数据挖掘您可以
发现最有价值 的客户
通过数据挖掘您可以
使组合销售更 有效率
通过数据挖掘您可以
留住那些最有 价值的客户
通过数据挖掘您可以
用更小的成本 发现欺诈现象
什么是数据挖掘
•通过采用自动或半自动的手段,在海量数据中发现 有意义的行为和规则的探测和分析活动。 •数据挖掘能够帮助你选择正确瞄准潜在目标,向现 有的客户提供额外的产品,识别那些准备离开的好 客户。
数据挖掘应用领域
•电信 :流失 •银行:聚类(细分), 交叉销售 •百货公司/超市:购物篮分析 (关联规则) •保险:细分,交叉销售,流失(原因分析) •信用卡: 欺诈探测,细分 •电子商务: 网站日志分析 •税务部门:偷漏税行为探测 •警察机关:犯罪行为分析 •医学: 医疗保健
数据挖掘效益分析(直邮)
生命周期符合SDLC 声明周期不同
对性能要求高
对性能要求宽松
一个时刻操作一单元 一个时刻操作一集合
事务驱动
分析驱动
面向应用
面向分析
一次操作数据量小 一次操作数据量大
支持日常操作
支持管理需求
数据仓库的四个基本特征
• 数据是面向主题的
– 什么是主题(是在较高层次上将企业信息系统 中的数据综合、归类并进行分析利用的抽象)
(Big Bank & Credit Card Company)
目的:发现新客户
发信的数量 成本 响应的数量 每个响应的毛利 总毛利 净利润 建模的费用 最终的利润
数据挖掘以 前
1,000,000 $1,000,000
10,000 $125
$1,250,000 $250,000 0 $250,000