数据挖掘方法论
上线发布
数据准备
•创建数据挖掘环境 •检查和校验数据 •准备数据
循环往复的挖掘过程
探索 抽样
评估
修改 建模
Page 12
6
数据准备
§ 预备需求 - 确认业务问题 - 挖掘的目标变量(如果有)
§ 交付物 - 数据挖掘变量列表 - 数据集
§ 任务 - 创建数据挖掘环境 - 检查和校验数据 - 准备数据
Page 2
1
信息分析的一般流程 CRISP-DM方法论
§ 包括六个阶段:
- 商业理解 (Business understanding) - 数据理解 (Data understanding) - 数据准备 (Data preparation) - 建立模型 (Modeling) - 模型评估 (Evaluation) - 模型发布 (Deployment)
§ 模型发布 (Deployment) - 把数据挖掘模型的结果送到相应的管理人员手中 - 对模型进行日常的监测和维护 - 定期更新数据挖掘模型
Page 4
2
信息分析的一般流程 CRISP-DM方法论
§ 打个比方,譬如炒菜待客, - 商业理解就是了解顾客的口味; - 数据理解则是熟悉每一样原料可以炒什么菜; - 数据准备则是根据顾客的口味和厨师的经验,配菜、择菜和洗菜; - 而建模就全靠大厨炒菜的水平; - 到了评估阶段就是顾客品尝; - 如果满意则到了最后的阶段,作为招牌菜发布推广。
§ 数据准备 (Data Preparation) - 选择数据 - 清理数据 - 对数据进行重建 - 调整数据格式使之适合建模
§ 建立模型 (Modeling) - 对各个模型进行评价 - 选择数据挖掘模型 - 建立模型
§ 模型评估 (Evaluation) - 评估数据挖掘的结果 - 对整个数据挖掘过程的前面步骤进行评估 - 确定下一步怎么办?是发布模型?还是对数据挖 掘过程进行进一步的调整,产生新的模型
数据挖掘方法论
Sunstone Zhang (张磊博士)
@张磊IDMer
信息分析的一般流程 CRISP-DM方法论 § 在业界,CRISP-DM(Cross-Industry Standard Process for Data
Mining)是公认的、较有影响的方法论。 § CRISP-DM起源于1996年,当时NCR、Clementine(1998年为SPSS收
循环往复的挖掘过程
探索 抽样
评估
修改 建模
Page 16
8
上线发布
§ 预备需求
- 可投入生产环境的模型 - 严密的模型评估
§ 交付物
- 业务报告 - 上线的模型 - 模型维护计划 - 业务流程报告
§ 任务
- 模型集成的架构设计 - 生成管理和业务报告 - 生成评分数据 - 把模型应用于生产
Page 17
Page 13
SAS数据挖掘项目实施方法论
定义业务问题
环境评估
数据准备
检视与评价 上线发布
循环往复的挖掘过程
探索 抽样
评估
修改 建模
Page 14
7
信息分析的一般流程 SAS SEMMA数据挖掘方法论
Page 15
SAS数据挖掘项目实施方法论
定义业务问题
环境评估
数据准备
检视与评价
上线发布
•模型集成的架构设计 •生成管理和业务报告 •生成评分数据 •把模型应用于生产
数据挖掘项目 实施方法论
循环往复的挖掘过程
探索 抽样
评估
修改 建模
Page 6
3
数据挖掘项目的成功要素
§ 合理确定项目范围-明确、可行 § 与业务目标紧密结合 § 保证良好的数据质量 § 挖掘人员和业务专家能真正了解业务、挖掘产品、业务目标 § 一定要纳入IT部门和业务部门 § 分阶段实施,叠代式进行 § 管理层的支持
§ 数据挖掘的过程就是客户空腹而来,满意而归的完整的服务过程
§ 在实际项目中,CRISP-DM模型中的数据理解、数据准备、建模、评估 并不是直线式的,而是多次反复、多次调整、否定之否定的螺旋上升的 过程。
Page 5
信息分析的一般流程 SAS数据挖掘项目实施方法论
定义业务问题
环境评估
数据准备
检视 上线发布
Page 3
信息分析的一般流程 CRISP-DM方法论
§ 商业理解 (Business Understanding) - 找问题-确定商业目标 - 对现有资源的评估 - 确定问题是否能够通过数据挖掘来解决 - 确定数据挖掘的目标 - 制定数据挖掘计划
§ 数据理解 (Data Understanding) - 确定数据挖掘所需要的数据 - 对数据进行描述 - 数据的初步探索 - 检查数据的质量
§ 任务 - 考察业务情况 - 提出业务问题 - 考察数据可用性 - 制定业务计划 - 选择数据挖掘方法
Page 9
SAS数据挖掘项目实施方法论
定义业务问题
环境评估
•评估数据环境 •评估企业可操作性 •评估IT环境 •选择软硬件环境 •规划实施体系结构
检视与评价
上线发布
数据准备
循环往复的挖掘过程
探索 抽样
Page 19
THE END
Page 20
10
SAS数据挖掘项目实施方法论
定义业务问题
检视与评价
•检视模型的应用效果 •检视投资回报 •检视模型的性能
上线发布
程
探索 抽样
评估
修改 建模
Page 18
9
检视与评价
§ 预备需求 - 上线的模型
§ 交付物 - 数据挖掘检视报告
§ 任务 - 检视模型的应用效果 - 检视投资回报 - 检视模型的性能
Page 7
SAS数据挖掘项目实施方法论
定义业务问题
§考察业务情况 §提出业务问题 §考察数据可用性 §制定业务计划 §选择数据挖掘方法
检视与评价
环境评估
上线发布
数据准备
循环往复的挖掘过程
探索
抽样 评估
修改 建模
Page 8
4
定义业务问题
§ 预备需求 - 必需了解在哪些方面需要决策支持
§ 交付物 - 明确的业务问题 - 业务改善计划
评估
修改 建模
Page 10
5
环境评估
§ 预备需求 - 业务问题 - 挖掘的目标变量(如果有)
§ 交付物 - 项目实施计划
§ 任务 - 评估数据环境 - 评估企业可操作性 - 评估IT环境 - 选择软硬件环境 - 规划实施体系结构
Page 11
SAS数据挖掘项目实施方法论
定义业务问题
环境评估
检视与评价
购)、OHRA和Daimler-Benz(现为Daimler-Chrysler)的联合项目组正 在为Daimler-Benz实施DM项目。一年后,CRISP-DM兴趣小组正式成立。 2000年,CRISP-DM 1.0版正式推出。 § CRISP-DM强调,数据挖掘不单是数据的组织或者呈现,也不仅是数据 分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践 检验的完整过程。