当前位置:文档之家› 数据挖掘方法论

数据挖掘方法论


上线发布
数据准备
•创建数据挖掘环境 •检查和校验数据 •准备数据
循环往复的挖掘过程
探索 抽样
评估
修改 建模
Page 12
6
数据准备
§ 预备需求 - 确认业务问题 - 挖掘的目标变量(如果有)
§ 交付物 - 数据挖掘变量列表 - 数据集
§ 任务 - 创建数据挖掘环境 - 检查和校验数据 - 准备数据
Page 2
1
信息分析的一般流程 CRISP-DM方法论
§ 包括六个阶段:
- 商业理解 (Business understanding) - 数据理解 (Data understanding) - 数据准备 (Data preparation) - 建立模型 (Modeling) - 模型评估 (Evaluation) - 模型发布 (Deployment)
§ 模型发布 (Deployment) - 把数据挖掘模型的结果送到相应的管理人员手中 - 对模型进行日常的监测和维护 - 定期更新数据挖掘模型
Page 4
2
信息分析的一般流程 CRISP-DM方法论
§ 打个比方,譬如炒菜待客, - 商业理解就是了解顾客的口味; - 数据理解则是熟悉每一样原料可以炒什么菜; - 数据准备则是根据顾客的口味和厨师的经验,配菜、择菜和洗菜; - 而建模就全靠大厨炒菜的水平; - 到了评估阶段就是顾客品尝; - 如果满意则到了最后的阶段,作为招牌菜发布推广。
§ 数据准备 (Data Preparation) - 选择数据 - 清理数据 - 对数据进行重建 - 调整数据格式使之适合建模
§ 建立模型 (Modeling) - 对各个模型进行评价 - 选择数据挖掘模型 - 建立模型
§ 模型评估 (Evaluation) - 评估数据挖掘的结果 - 对整个数据挖掘过程的前面步骤进行评估 - 确定下一步怎么办?是发布模型?还是对数据挖 掘过程进行进一步的调整,产生新的模型
数据挖掘方法论
Sunstone Zhang (张磊博士)
@张磊IDMer
信息分析的一般流程 CRISP-DM方法论 § 在业界,CRISP-DM(Cross-Industry Standard Process for Data
Mining)是公认的、较有影响的方法论。 § CRISP-DM起源于1996年,当时NCR、Clementine(1998年为SPSS收
循环往复的挖掘过程
探索 抽样
评估
修改 建模
Page 16
8
上线发布
§ 预备需求
- 可投入生产环境的模型 - 严密的模型评估
§ 交付物
- 业务报告 - 上线的模型 - 模型维护计划 - 业务流程报告
§ 任务
- 模型集成的架构设计 - 生成管理和业务报告 - 生成评分数据 - 把模型应用于生产
Page 17
Page 13
SAS数据挖掘项目实施方法论
定义业务问题
环境评估
数据准备
检视与评价 上线发布
循环往复的挖掘过程
探索 抽样
评估
修改 建模
Page 14
7
信息分析的一般流程 SAS SEMMA数据挖掘方法论
Page 15
SAS数据挖掘项目实施方法论
定义业务问题
环境评估
数据准备
检视与评价
上线发布
•模型集成的架构设计 •生成管理和业务报告 •生成评分数据 •把模型应用于生产
数据挖掘项目 实施方法论
循环往复的挖掘过程
探索 抽样
评估
修改 建模
Page 6
3
数据挖掘项目的成功要素
§ 合理确定项目范围-明确、可行 § 与业务目标紧密结合 § 保证良好的数据质量 § 挖掘人员和业务专家能真正了解业务、挖掘产品、业务目标 § 一定要纳入IT部门和业务部门 § 分阶段实施,叠代式进行 § 管理层的支持
§ 数据挖掘的过程就是客户空腹而来,满意而归的完整的服务过程
§ 在实际项目中,CRISP-DM模型中的数据理解、数据准备、建模、评估 并不是直线式的,而是多次反复、多次调整、否定之否定的螺旋上升的 过程。
Page 5
信息分析的一般流程 SAS数据挖掘项目实施方法论
定义业务问题
环境评估
数据准备
检视 上线发布
Page 3
信息分析的一般流程 CRISP-DM方法论
§ 商业理解 (Business Understanding) - 找问题-确定商业目标 - 对现有资源的评估 - 确定问题是否能够通过数据挖掘来解决 - 确定数据挖掘的目标 - 制定数据挖掘计划
§ 数据理解 (Data Understanding) - 确定数据挖掘所需要的数据 - 对数据进行描述 - 数据的初步探索 - 检查数据的质量
§ 任务 - 考察业务情况 - 提出业务问题 - 考察数据可用性 - 制定业务计划 - 选择数据挖掘方法
Page 9
SAS数据挖掘项目实施方法论
定义业务问题
环境评估
•评估数据环境 •评估企业可操作性 •评估IT环境 •选择软硬件环境 •规划实施体系结构
检视与评价
上线发布
数据准备
循环往复的挖掘过程
探索 抽样
Page 19
THE END
Page 20
10
SAS数据挖掘项目实施方法论
定义业务问题
检视与评价
•检视模型的应用效果 •检视投资回报 •检视模型的性能
上线发布

探索 抽样
评估
修改 建模
Page 18
9
检视与评价
§ 预备需求 - 上线的模型
§ 交付物 - 数据挖掘检视报告
§ 任务 - 检视模型的应用效果 - 检视投资回报 - 检视模型的性能
Page 7
SAS数据挖掘项目实施方法论
定义业务问题
§考察业务情况 §提出业务问题 §考察数据可用性 §制定业务计划 §选择数据挖掘方法
检视与评价
环境评估
上线发布
数据准备
循环往复的挖掘过程
探索
抽样 评估
修改 建模
Page 8
4
定义业务问题
§ 预备需求 - 必需了解在哪些方面需要决策支持
§ 交付物 - 明确的业务问题 - 业务改善计划
评估
修改 建模
Page 10
5
环境评估
§ 预备需求 - 业务问题 - 挖掘的目标变量(如果有)
§ 交付物 - 项目实施计划
§ 任务 - 评估数据环境 - 评估企业可操作性 - 评估IT环境 - 选择软硬件环境 - 规划实施体系结构
Page 11
SAS数据挖掘项目实施方法论
定义业务问题
环境评估
检视与评价
购)、OHRA和Daimler-Benz(现为Daimler-Chrysler)的联合项目组正 在为Daimler-Benz实施DM项目。一年后,CRISP-DM兴趣小组正式成立。 2000年,CRISP-DM 1.0版正式推出。 § CRISP-DM强调,数据挖掘不单是数据的组织或者呈现,也不仅是数据 分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践 检验的完整过程。
相关主题