当前位置:文档之家› 数据挖掘与预测分析:第2版

数据挖掘与预测分析:第2版

第1章数据挖掘与预测分析概述1.1 什么是数据挖掘和预测分析最近,计算机制造商Dell对提高其销售人员的工作效率非常感兴趣。

为此,公司利用数据挖掘和预测分析方法分析其潜在客户数据库,以发现那些最有可能真正成为其客户的人群。

通过利用LinkedIn及其他能够提供大量丰富潜在客户信息的类似网站,研究潜在客户的社会网络行为,Dell就能为其客户开发出更具个性化的销售方式。

以上案例是通过挖掘客户数据,帮助识别潜在客户市场行为类型的实例,它基于客户的个人档案记录。

这一工作能获得什么样的效益呢?可以将需要联系的预期人群数量减少50%,只与那些最有可能成为客户的人群联系,销售人员的效率和效益提高一倍左右,同时Dell的营业额也获得了类似的增长1。

美国麻省州政府以预测分析为工具,大大减少了全州的医疗福利诈骗案件。

当医疗索赔发生时,州政府立即将相关信息实时发送到预测分析模型,执行异常检测。

据麻省州医疗福利欺诈中心负责人Joan Senatore透露,在投入使用的前6个月期间,该系统“发现了涉及大约两百万美元的不应支付的款项,避免了大量欺诈索赔金额的支付”。

21 How Dell Predicts Which Customers Are Most Likely to Buy, by Rachael King, CIO Journal, Wall Street Journal, December 5, 2012.2 How MassHealth cut Medicaid fraud with predictive analytics, by Rutrell Yasin, GCN, February 24, 2014.第Ⅰ部分 数 据 准 备4麦肯锡全球研究所(MGI)报告3称大多数雇员超过1000人的美国公司平均有至少200 TB的数据存储。

麦肯锡全球研究所认为在世界范围内,数据产生的总量将以每年40%的速度增长,对公司来说,这将带来有利可图的机会,它们可以利用其数据减少开销并增加利润。

例如,按照MGI的报告,能够最大限度地利用这些“大数据”的零售商可使其营业额毛利增长60%以上。

《福布斯》杂志报告4表明,利用数据挖掘和预测分析,可发现那些具有最严重危险的充血性心脏衰竭病人。

IBM收集了涉及350 000位病人的3年数据,包括超过200个参数的数据度量值,如血压、体重以及处方药等。

利用预测分析,IBM发现可能会死于充血性心脏衰竭的风险最大的8500位病人。

《MIT(麻省理工学院)技术导报》报告5声称,正是由于奥巴马竞选团队有效利用了数据挖掘技术,帮助奥巴马于2012年赢得了与对手罗姆尼的总统竞选。

首先,竞选团队使用数据挖掘模型确定出潜在的奥巴马支持者,然后确定这些支持者将会参与投票。

竞选团队还使用了单独的数据挖掘模型,按照不同选区预测投票结果。

在著名的摇摆选区,即俄亥俄州汉密尔顿选区,该模型预测奥巴马将获得56.4%的选票;实际情况是,奥巴马总统在该选区获得56.6%的选票,预测值与实际值仅相差0.2%。

这样准确的预测能力使得竞选团队成员能在分配紧缺资源时获得更高的效率。

数据挖掘是从大型数据集中发现有用的模式和趋势的过程。

预测分析是从大型数据集中获取信息以便对未来结果进行预测和估计的过程。

那么,数据挖掘是什么?预测分析是什么?当你在大型超市排队等待结账时,是否曾经闭上眼睛倾听?你可能会听到收款台上的读卡器在扫描读取食品杂货条形码时所发出的嘟嘟声,此时读取的数据都存放到公司的服务器上。

每一次嘟嘟声都意味着向数据库中插入了一条新记录,表明收集到包含新“观察值”的信息,这些信息涉及你的家庭以及其他通过收款台的家庭所具有的购买习惯。

显然,可以收集到大量的数据。

然而,我们能够从所有这些数据中学习到什么呢?将会从所有这些数据中得到何种新知识呢?现实情况是,可能没有你想象的那样多,原因在于有经验的数据分析人员严重短缺。

3 Big data: The next frontier for innovation, competition, and productivity, by James Manyika et al., Mckinsey Global Institute, , May, 2011. Last accessed March 16, 2014.4 IBM and Epic Apply Predictive Analytics to Electronic Health Records, by Zina Moukheiber, Forbes magazine, February 19, 2014.5 How President Obama’s campaign used big data to rally individual voters, by Sasha Issenberg, MIT Technology Review, December 19, 2012.第1章 数据挖掘与预测分析概述 5 1.2 需求:数据挖掘技术人员早在1984年,在《大趋势》一书6中,约翰·奈斯比特注意到“我们被大量信息淹没,但却缺乏知识”。

当前,这一问题不在于我们没有足够的数据或信息流。

事实上,目前多数领域都存在大量的数据。

问题在于,我们缺乏擅长于将所有这些数据转换为知识的足够分析人员,他们能够将分类树转为智慧。

数据挖掘和知识发现领域的持续显著成长是源于多种因素幸运交汇的结果:●收集到的数据呈爆炸性增长,正如前述超市扫码器的案例所示;●将数据存储到数据仓库中,从而整个企业能够访问可靠的、最新的数据库;●越来越多的人能够通过网页浏览和内联网访问数据;●在经济全球化进程中为增加市场份额所遇到的竞争压力;●可用的商业数据挖掘套件的开发;●计算能力和存储能力的不断增大。

遗憾的是,McKinsey报告7认为:企业需要的能够利用大数据的人才存在短缺。

因此,想要获取大数据中蕴含的价值将严重受制于人才的短缺,特别是具有统计和机器学习方面专门知识的专家型人才,以及熟知如何利用从大数据中获得的知识来运营公司的管理人员和分析师。

我们认为对大数据领域需要的、能够进行深入分析的职位呈现供不应求的状况,短缺将达到140 000~190 000个职位。

此外,我们认为在美国大约需要额外的150万管理人员和分析师,他们能够提出正确的问题并有效地使用大数据分析的结果,开展管理和分析工作。

本书试图帮助缓解数据分析人员严重短缺的现状。

1.3 数据挖掘离不开人的参与自动化无法替代人的监督,数据挖掘过程的每个阶段都需要人的积极参与。

与其寻找人员适合在数据挖掘中处理什么工作,不如询问我们如何能够将数据挖掘设计成为人性化的问题求解过程。

此外,当前可用的强大数据挖掘算法嵌入在黑盒软件中,这会导致大量的误用,从而产生更大的危险。

与其他新的信息技术一样,数据挖掘技术也容易产生不良的效果。

例如,6 Megatrends, John Naisbitt, Warner Books, 1984.7 Big data: The next frontier for innovation, competition, and productivity, by James Manyika et al., Mckinsey Global Institute, , May, 2011. Last accessed March 16, 2014.第Ⅰ部分 数 据 准 备6研究人员可能应用不适当的、与正确途径完全不同的方法分析数据集,或者得出的模型建立在完全似是而非的假设的基础上。

因此,需要理解作为软件底层的统计和数学模型的结构。

1.4 跨行业数据挖掘标准过程:CRISP-DM在一些公司中,由于部门习惯和组织划分,存在着混乱地处理数据挖掘的情况,从而浪费大量资源,开展重复劳动。

因此明显需要建立一种跨行业的标准,该标准应与行业、工具和应用无关。

跨行业数据挖掘标准过程(CRISP-DM8)由来自戴姆勒-克莱斯勒、SPSS 和NCR的分析人员共同开发。

CRISP提供了一种开放的、可自由使用的数据挖掘标准过程,使数据挖掘适合于商业或研究单位的问题求解策略。

按照CRISP-DM标准,一个数据挖掘项目的生命周期包含6个阶段,如图1.1所示。

注意阶段顺序是自适应的。

这意味着,后一阶段通常依赖于与之相关的前一个阶段的结果。

阶段之间最显著的依赖关系用箭头表示。

例如,假设我们目前处于建模阶段。

根据模型的行为和特征,在进入模型评估阶段前,我们可能需要返回到数据准备阶段做进一步的完善工作。

8 Peter Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinart, Colin Shearer, Rudiger Wirth, CRISP-DM Step-by-Step Data Mining Guide, 2000.第1章 数据挖掘与预测分析概述 7业务/研究理解阶段数据理解阶段部署阶段评估阶段建模阶段数据准备阶段图1.1 CRISP-DM是一个迭代的、自适应的过程CRISP的迭代特性如图1.1中的外圈所示。

通常,针对特定业务或研究问题的解决方案将会产生更为深入的有趣问题,这些问题往往可以使用与之前类似的通用过程加以解决。

从过去的项目中学到的经验教训始终应该作为新项目的输入。

以下是对各个阶段的简略描述(在评估阶段遇到的问题可以由分析人员返回前面的任一阶段开展完善工作)。

CRISP-DM:六阶段概述1. 业务/研究理解阶段a.首先,根据业务或研究单元,从总体上清楚地阐明项目目标和需求。

b.然后,将这些目标和约束转换为数据挖掘问题定义的公式。

c. 最后,准备实现这些目标的初步策略。

2.数据理解阶段a. 首先,收集数据。

b.然后,通过探索性数据分析熟悉数据,发现浅层见解。

c. 评估数据质量。

d.最后,如果需要的话,选择可能包含可执行模式的感兴趣数据子集。

3.数据准备阶段a. 该阶段需要投入大量的精力,涵盖准备最终数据集的方方面面,这些数据将用于后续阶段,涉及初始数据、原始数据和脏数据。

第Ⅰ部分 数 据 准 备8b. 选择要分析的案例和变量,为分析做好准备工作。

c. 如果需要的话,对确定的变量进行转换。

d. 对原始数据展开清理工作,为使用建模工具建模打下基础。

4. 建模阶段a. 选择并应用适当的建模技术。

b. 校准模型设置以优化结果。

c. 通常,对同一个数据挖掘问题可能要应用多种不同的技术。

d. 可能需要返回数据准备阶段,以便使数据形式能够符合特定数据挖掘技术对数据的特定需求。

5. 评估阶段a. 建模阶段将发布一个或多个模型。

相关主题