商务数据挖掘与应用案例分析
17/43
2018/11/20
1.3.1 数据挖掘任务 (4)
(5) 回归(Regression )分析
回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种分 析方法。其可应用于风险分析、作文自动评分等领域。
(6) 序列模式(Sequential Pattern)挖掘
序列模式挖掘是指分析数据间的前后序列关系,包括相似模式发现、 周期模式发现等。其应用领域包括客户购买行为模式预测、Web访问 模式预测、疾病诊断、网络入侵检测等。
5/43
2018/11/20
客户流失分析
在激烈竞争的市场,往往采取名目繁多的促销活动和层 出不穷的广告宣传来吸引新客户、留住老客户; 研究发现:发展一个新客户比保持一个老客户的费用要 高出5倍以上。 客户流失分析是以客户的历史消费行为数据、客户的基 础信息、客户拥有的产品信息为基础,通过研究综合考 虑流失的特点和与之相关的多种因素,以此建立可以在 一定时间范围内预测客户流失倾向的预测模型,以便对 流失进行预测、并对流失的后果进行评估
挖掘 。
15/43
2018/11/20
1.3.1 数据挖掘任务 (2)
(1) 聚类(Clustering)分析
“物以类聚,人以群分”。聚类分析技术试图找出数据集中的共性和 差异,并将具有共性的对象聚合在相应的类中。聚类可以帮助决定哪 些组合更有意义,广泛应用于客户细分、定向营销、信息检索等等。
(2) 分类(Classification)分析
பைடு நூலகம்
6/43
2018/11/20
智能搜索
Web信息检索,即搜索引擎,是能有效解决通过网络来快 速在用户输入关键词进行查询后 ,返回的是成千上万的相关结果,往往需要用户花费大量 时间浏览与选择,不能满足用户快速获取信息的愿望。因 此大量学者以及研究人员开始研究行业化、个性化、智能 化的第三代搜索引擎。
资料来源: /blog/more.asp?name=idmer&id=9729 2018/11/20 12/43
1.2.2 数据挖掘概念
技术层面:数据挖掘是探查和分析大量数据以发现有意义 的模式和规则的过程 。 商业层面:数据挖掘就是一种商业信息处理技术,其主要 特点是对大量业务数据进行抽取、转换、分析和建模处理, 从中提取辅助商业决策的关键性数据 。
资料来源:/zhexue/weilai/014.htm
11/43 2018/11/20
案例1-2:Yahoo! 数据挖掘案例
Usama Fayyad博士是Yahoo!的首席数据官,KDnuggets的Gregory对他进行了访谈。下 面是访谈中介绍的Yahoo!在数据挖掘方面的成功案例: (1)产品整合:一个例子就是你今天在Yahoo!电子邮箱上看到的,数据挖掘的可视结果。通过 对用户使用行为的意外模式分析,我们发现在每次会话中,人们阅读邮件和阅读新闻的行为之间 存在很强的相关关系。我们把这个发现传达给Yahoo!电子邮箱产品小组,他们首先想到的就是 验证这种关系的影响:在一组测试用户的邮箱首页上显示一个新闻模块,其中的新闻标题被醒目 显示。 对于象电子邮箱这种产品,最头痛的问题就是如何获取新的“轻量级用户”,并推动他们的用 量,使之变成“重量级用户”。如果你做到了,那么流失率就会显著下降。实际上,在我们的试 验中,最弱的一组流失率下降了40%。于是Yahoo!立刻开发并完善了新闻模块,并嵌入Yahoo! 电子邮箱的首页,到现在,上亿的消费者都可以看到并使用这种产品。我喜欢提及这个故事,因 为它很好地说明了我们产品团队的及时反应能力,也证明了在用户使用行为数据中蕴含着很多很 多极具价值的潜在模式。 (2) 即时通信:我们对雅虎通(Instant Messenger)的使用情况进行了分析,以了解激励 用量的关键因素是什么。结果发现,最重要的因素是让用户扩大他们的“好友列表”,至少增加 5个新的好友。据此Yahoo!精心设计了相应的营销活动,鼓励用户增加好友列表中的好友数,从 而显著激励了雅虎通的用量。 (3) Yahoo首页的搜索框:一个简单的例子就是我们发现,在Yahoo的首页上,把搜索框放在 居中的位置(而不是以前的左侧)将提高用户的用量。这样一方面可以促进用户的积极使用,对 Yahoo!来说也没有成本支出。这个结果的发现过程也很有趣,我们首先发现Netscape浏览器的 用户比IE的用户更多地使用了搜索功能,进一步探查发现两个浏览器在视觉上的唯一区别就是: 二者中的搜索框位置不同!搜索框在Netscape浏览器中是居中放置,而在IE中则是靠近左侧。 很不明显的差别,但却很重要。一般谁会想到呢?
10/43 2018/11/20
案例1-1:梅隆银行的数据挖掘
美国的梅隆银行(Bank of New York Mellon)在1997年设定了争取20万 新户头的目标,为此,计划向1000万可能的顾客邮寄邀请函。然而,这家银 行却利用了数据挖掘技术产生了3000个最可能的顾客的模式。对这些模式的 子集再加以精选,产生了更小的一个数目。测试表明,这个更小的数目会产 生12%的回应率。这个回应率使得这家银行只需发出200万份邀请函即可获 得他们想要的20万名顾客,而不是原定的向1000万人发出信函。因此,利用 数据挖掘技术除了削减成本之外,还提高了每位新开户的顾客的平均利润率 ,其利润要比通常高3倍,因为该技术瞄准了那些需求最适合梅隆银行服务项 目的顾客。 这个例子说明了数据挖掘的两个重要方面。第一个方面仅就其规模而言: 牵涉到的数据量和所探索的模式数目要比传统的数据分析量大得多;第二个 方面就是,即使是受过高级培训的专家也能获益于数据挖掘;正如我们在梅 隆银行的例子中所见,一个外部专家小组得出的结果比本公司专职数据分析 部门用常规方法得出的结果高6倍,而所花时间只是后者的四分之一。我们的 一个主要目标就是使数据挖掘工具使用简易,因此,连最终的商务用户,而 不是专家,都会使用它们。
8/43
2018/11/20
1.2 数据挖掘产生的背景及概念
1.2.1 数据挖掘产生的背景 1.2.2 数据挖掘概念
9/43
2018/11/20
1.2.1 数据挖掘产生的背景
信息的快速增长带来的问题:
(1)信息过量,难以消化; (2)信息真假难以辨识; (3)信息安全难以保证; (4)信息形式不一致,难以统一处理。
关联分析,发现特征之间的相互依赖关系,通常是从给定的数据集中 发现频繁出现的模式知识(又称为关联规则)。关联分析广泛用于市场营 销、事务分析等领域。
(4) 离群点(Outlier)检测
离群点检测就是发现与众不同的数据。 可应用于商业欺诈行为的自动 检测,网络入侵检测,金融欺诈检测,反洗钱,犯罪嫌疑人调查,海 关、税务稽查等。
3/43
2018/11/20
超市货架组织
货架的组织会影响商品的销售!
超市商品按什么原则摆放?
尿布与啤酒被摆在一起。为什么?
关联销售!
原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下 班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自 己爱喝的啤酒。这种现象就是卖场中商品之间的关联性,研究“啤酒 与尿布”关联的方法就是购物篮分析,购物篮分析是沃尔玛秘而不宣 的独门武器,购物篮分析可以帮助超市在销售过程中找到具有关联关 系的商品,并以此获得销售收益的增长!
18/43
2018/11/20
1.3.2 数据挖掘过程 (1)
从商业的角度看,数据挖掘过程可分为三个阶段:
(1)数据准备:数据收集(集成)和预处理。知识是从海量数据里提取出来 的,因此要挖掘知识必须得收集一定量的数据。收集到的原始数据一般存 在缺失值、错误值等问题,不能直接用作知识提取的数据源,需要进行数 据预处理。
2018/11/20
4/43
广告精准投放
随着Web2.0应用的推广,网络社区服务SNS(Social Network Service)已成为互联网关注的热点。通过挖掘网络中潜在的社区人群 ,企业可以更好地搜索潜在消费者和传播对象,将分散的目标顾客和 受众精准地聚集在一起,精确地把广告投放给目标客户,这不但有效 降低单人营销费用,而且可以减少对非目标客户的干扰,提高广告的 满意度,最终实现网络广告投放策略的真正价值。
7/43
2018/11/20
免费用户到付费用户的转化
在网络游戏试玩初期,游戏运营商为了测试和完善网络游 戏以及快速扩大玩家群,通常都会推出一段相对较长的免 费试玩期。因此,在网络游戏正式运营前就会存在大量的 注册用户,这些注册用户会在网络游戏运行后存在很长一 段时间。如何把这些注册用户转化成付费客户,真正为游 戏运营商带来收益呢?数据挖掘技术的应用使网络游戏运 营商能够对注册用户采取差别化营销,对正确的注册用户 采用合适的营销手段,从而提高市场营销活动效果,使企 业利润得到最大化。
1.3 数据挖掘任务及过程>>
1.4 数据挖掘常用软件简介>>
1.5 数据挖掘在商业领域中的应用>>
1.6 数据挖掘技术的前景>>
2/43
2018/11/20
1.1 引例
1.1.1 超市货架组织
1.1.2 广告精准投放 1.1.3 客户流失分析
1.1.4 智能搜索
1.1.5 免费用户到付费用户的转化
13/43
2018/11/20
1.3 数据挖掘任务及过程
1.3.1 数据挖掘任务 1.3.2 数据挖掘过程
14/43
2018/11/20
1.3.1 数据挖掘任务 (1)
(1)预测任务
根据其它属性的值预测特定属性的值,如分类、回归、离群点检测。
(2)描述任务
寻找概括数据中潜在联系的模式,如聚类分析、关联分析、序列模式