当前位置:文档之家› 从海量数据到大数据-数据挖掘算法、过程及应用案例(PDF 110页)

从海量数据到大数据-数据挖掘算法、过程及应用案例(PDF 110页)


数据挖掘项目流程
CRISP-DM过程
1: business understanding: 即商业理解。
• 根据客户的消费行为进行聚类,为营销人员提供用户的实际消费特征;
2.data understanding: 数据的理解、收集、对 可用的数据进行评估.
•在数据仓库中收集客户的消费、语音、数据业务数据,并分析评估数据的 有效性;
模模型型测测试试
模模型型建建立立
建模流程——问题理解
清晰地定义出业务问题,认清数据挖掘的目的是挖掘的重要一 步;
挖掘的最后结果具有不可预见性,但要解决的问题应是明确的; 为了数据挖掘而数据挖掘则带有盲目性,是不会成功的
问 • 理解业务问题 题 • 理解客户需求 理 • 定义商业目标 解 • 定义数据挖掘目标
6: deployment: 部署
• 即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)
亚联数据挖掘建模流程
问问题题理理解解 模模型型应应用用
数数据据准准备备
模模型型准准备备
数数据据 提提取取
数数据据 检检验验
数数据据 加加工工
变变量量 筛筛选选
变变量量 变变换换
数数据据 挖挖掘掘
算算法法 选选择择
数据变换
• 通过建模分 析字段的重 要性
• 决策树模型, 信息增益旁 别
• 逻辑回归模 型,回归系 数显著 正态变换
建模流程——模型建立
根据模型类型不同可能需要 对数据抽样分组
建模过程
数据准备
方法选择
方法选择 参数设置
模型计算
具体方法选择可参见 挖掘模型的常见算法 介绍
参数设置根据选择的 算法
模型计算可自行开发算 法或利用工具,如SAS、 SPSS、Clementine、R、 Weka等
建模流程——模型评估
建模结果
建模阶段评估
评估结果
第一次优化
上线测试评估
评估结果
第二次优化
模型上线
第三+N次优化
营销应用
营销应用评估
评估结果
建模流程——模型评估
收益图
横轴为模型筛选用户在候选用户中占比,按筛选用户 质量从高到低排序。纵轴为查全率筛选用户中目标用 户在候选用户中所有目标用户中的占比。表明模型筛 选用户所花费的代价(模型筛选用户在候选用户中占 比)和与之对应的查全率,查全率相对于代价的增幅 ,就是收益。
分类算法: 决策树 逻辑回归 神经网络 支持向量机 贝叶斯分类 判别分析 KNN(K近邻)……
典型应用: 流失预测 精确营销 客户获取 个性偏好 信用分析 欺诈预警 ……
分类--决策树
• 决策树是描述分类过程的一种数据结 构,从上端的根节点开始,每一层节 点依照某一属性值向下分为子节点, 待分类的实例在每一节点处与该节点 相关的属性值进行比较,根据不同的 比较结果向相应的子节点扩展,这一 过程在到达决策树的叶节点时结束。
提升图
横轴为模型筛选用户在候选用户中占比,按筛选用 户质量从高到低排序。纵轴为筛选用户的准确率和 目标用户渗透率(目标用户数/候选用户数)的比 值。表明应用模型筛选目标用户后准确率的提升。
评估指标
准确率:预测流失且实际流失的客户数/预测流失的客户数。 查全率(覆盖率):预测流失且实际流失的客户数/实际流失的客户数。 提升度:准确率/流失率,也就是使用模型后预测准确率的提升倍数。
行业
• 国内外环境 • 行业特征 • 目前状态 •…
问题产生的背景
企业
• 市场份额 • 用户情况 • 竞争对手 •…
部门
• 部门职责 • 研究对象 • 相关部门 •…
建模流程——数据准备
数据准备确保建模数据的可用性和完整性
• 了解数据字段含义 • 提取建模所需数据
数据提取
数据检验
• 数据来源检验 • 数据统计口径检验 • 数据统计错误检验
从海量数据到大数据-数据挖掘算法、 过程及应用案例
BOC 曾立平
目录
一、数据挖掘需求 二、数据挖掘流程 三、常用算法介绍 四、模型应用案例 五、大数据挖掘技术 六、大数据应用案例
几个问题
• 数据挖掘是什么? • 数据挖掘与统计学的区别 • 数据挖掘与数据分析的区别
数据挖掘几大核心问题
目录
一、数据挖掘需求 二、数据挖掘流程 三、常用算法介绍 四、模型应用案例 五、大数据挖掘技术 六、大数据应用案例
• 缺失值处理 • 噪声值处理 • 极值处理
数据加工
建模流程——模型准备
筛选建模变量、根据模型要求进行数据变换
字段过滤
• 变异系数 • 标准差 • 最大类别数 • 最小类别数
数据探索
• 数据分布 • 双变量分析 • 正态性检验
相关性分析
• 卡方分析 • 方差分析 • 相关分析 • 自相关分析
建模筛选
3: data preparation: 数据的准备
• 对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求;
4:modeling: 即应用数据挖掘工具建立模型
• 如,根据实际数据情况,我们采用聚类分析TWO-STEP模型进行分析;
5:evaluation: 模型评估
• 重点具体考虑得出的结果是否符合第一步的商业目的
个子小
个子大
不会吱吱 叫
会吱吱叫
脖子短
脖子长
可 能 是 松 可 能 是 老 鼻子短


鼻 长

可能是长颈 鹿
在陆地上
可能是大 在水里象
可能是犀 牛
可能是河 马
分类--决策树
建模流程——模型固化
前台应 用层
数据计 算流
系统界面 SQL
底层数 据表
数据表
目录
一、数据挖掘背景 二、数据挖掘流程 三、常用算法介绍 四、模型应用案例 五、大数据挖掘技术 六、大数据应用案例
数据挖掘任务
四类任务是对数据挖掘的高度概括
分类
分类(classification )是这样的过程:使用类标签已知的样本建立一个分类函数或分类模 型(也常常称作分类器), 应用分类模型,能把数据库中的类标签未知的数据进行归类。 分类在数据挖掘中是一项重要的任务,目前在商业上应用最多。 分类是过程,预测是目的
• 从根节点到叶节点的每一条路经都对 应着一条合理的规则,规则间各个部 分(各个层的条件)的关系是合取关 系。整个决策树就对应着一组析取的 规则。
• 决策树学习算法的最大优点是,它可 以自学习。在学习的过程中,不需要 使用者了解过多背景知识,只需要对 训练例子进行较好的标注,就能够进 行学习。
根结点
相关主题