当前位置:文档之家› 数据挖掘基本流程

数据挖掘基本流程


SEMMA视角下的数据挖掘流程
通过上述两个步骤,对数据的状态和趋势有了 进一步了解;对原来要解决的问题可能会有了进 一步的明确;这时要尽可能对问题解决的要求 能进一步的量化。问题越明确,越能进一步量 化,问题就向它的解决更前进了一步。
问题明确化、数据调整、 技术选择。
SEMMA视角下的数据挖掘流程
SEMMA视角下的数据挖掘流程
模型和知识的综 合解释和评价
数据取样 数据特征探索、分析和预处理
模型的研发、 知识的发现
问题明确化、数据 调整、技术选择。
SEMMA视角下的数据挖掘流程
数据取样
当进行数据挖掘时,首先要从企业大量数据中取出 要探索问题相关的样板数据子集,而不是动用全部 企业数据。
如同在对开采出来矿石首先要进行选矿一样。通过 数据样本的精选,不仅能减少数据处理量,节省系 统资源,而且能通过数据的筛选,使得想要反映的 规律性更加凸现出来。
CRISP-DM与SEMMA的区别
CRISP-DM SEMMA
客户需要时间评估 效果,对比投放广 告时和暂停时的效 果差距。
CRISP-DM模型视角下的数据挖掘流程
客户说太忙了,两 个孩子要上幼儿园、 要考大学,没有时 间打理。
不靠推广带来客户, 客户说钱全部都买
客户最近资金链比
只是让他的客户在 宝马了,生意太好
较紧张,被人压了
网上能找到他的信 了。只是暂时不做, 笔大额贷款。
CRISP-DM模型视角下的数据挖掘流程
CRISP-DM模型视角下的数据挖掘流程
CRISP-DM模型视角下的数据挖掘流程
数据预处理
数据准备阶段涵盖了从原始粗糙数据中构建最终数 据集(将作为建模工具的分析对象)的全部工作。 数据准备工作有可能被实施多次,而且其实施顺序 并不是预先规定好的。
这一阶段的任务主要包括:制表,记录,数据变量 的选择和转换,以及为适应建模工具而进行的数据 清理等等。
CRISP-DM模型视角下的数据挖掘流程
模型评估
但在进行最终的模型部署之前,更加彻底的评估模型,回顾在构建模型过程中所执行的每一个步骤,是非常重 要的,这样可以确保这些模型是否达到了企业的目标。 一个关键的评价指标就是看,是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。在这一阶段结 束之时,有关数据挖掘结果的使用应达成一致的决定。
这一步是数据挖掘工作的核心环节。 包括:回归分析方法等广泛的数理统计方法; 关联分析方法;分类及聚类分析方法;人工神 经元网络;决策树……等。
模型的研发、知识的发现
SEMMA视角下的数据挖掘流程
模型和知识的综合 解释和评价
从上述过程中将会得出一系列的分析结果、模式 或模型。
ASSESS 的目的之一就是从这些模型中自动找出 一个最好的模型出来,另外就是要对模型进行针 对业务的解释和应用。
息即可。
已经停了2个多月了。
公司换领导了,新 领导不相信互联网, 想投传统媒体。
CRISP-DM模型视角下的数据挖掘流程
嫁给有钱人,不做了,不想辛苦。 前阵子北京下大雨,把工厂冲垮了,目前还未恢复生产。 客户公司就他自己,有事情出不去,不上广告了。 没有时间去银行转账,又不相信快递取款,网银续费也不会。 客户需要时间评估效果,对比投放广告时和暂停时的效果差距。 客户说太忙了,两个孩子要上幼儿园、要考大学,没有时间打理。 不靠推广带来客户,只是让他的客户在网上能找到他的信息即可。 客户说钱全部都买宝马了,生意太好了。只是暂时不做,已经停了2个多月了。 客户最近资金链比较紧张,被人压了笔大额贷款。 公司换领导了,新领导不相信互联网,想投传统媒体。
公司广告业务的客户每个月都会流失 几百个 (互联网企业的盈利模式大都为广告 和游戏)
为什么??
CRISP-DM模型视角下的数据挖掘流程
嫁给有钱人,不做 了,不想辛苦。
前阵子北京下大雨, 把工厂冲垮了,目 前还未恢复生产。
客户公司就他自己, 有事情出不去,不 上广告了。
没有时间去银行转 账,又不相信快递 取款,网银续费也 不会。
CRISP-DM模型视角下的数据挖掘流程
建立模型
在这一阶段,各种各样的建模方法将被加以选择和使用,通 过建造,评估模型将其参数将被校准为最为理想的值。比较 典型的是,对于同一个数据挖掘的问题类型,可以有多种方 法选择使用。
如果有多重技术要使用,那么在这一任务中,对于每一个要 使用的技术要分别对待。一些建模方法对数据的形式有具体 的要求,因此,在这一阶段,重新回到数据准备阶段执行某 些任务有时是非常必要的。
SEMMA视角下的数据挖掘流程
数据特征探索、分析和预处理
前面所叙述的数据取样,多少是带着对如何达 到数据挖掘目的的先验的认识进行操作的。
拿到样本数据集后,它是否达到原来设想的要 求;其中有没有什么明显的规律和趋势;有没 有出现所从未设想过的数据状态;因素之间有 什么相关性;它们可区分成哪些类别……这都是 要首先探索的内容。
DT时代的数据ቤተ መጻሕፍቲ ባይዱ掘基本流程
CRISP-DM模型视角下的数据挖掘流程
商业 理解
方案 实施
模型 评估
数据 理解
数据 预处理
建立 模型
CRISP-DM模型视角下的数据挖掘流程
从商业的角度了解 项目的要求和最终 目的是什么,并将 这些目的与数据挖 掘的定义以及结果 结合起来。
CRISP-DM模型视角下的数据挖掘流程
CRISP-DM模型视角下的数据挖掘流程
方案实施
部署,即将其发现的结果以及过程组织成为可读文本形 式。根据需求的不同,部署阶段可以是仅仅像写一份报 告那样简单,也可以像在企业中进行可重复的数据挖掘 程序那样复杂。
在许多案例中,往往是客户而不是数据分析师来执行部 署阶段。然而,尽管数据分析师不需要处理部署阶段的 工作,对于客户而言,预先了解需要执行的活动从而正 确的使用已构建的模型是非常重要的。
相关主题