当前位置:
文档之家› 数据挖掘常见算法精品PPT课件
数据挖掘常见算法精品PPT课件
过程。 • 数据分析数据一般以文件形式或者单个数据库的方式组织
,而数据挖掘必须建立在数据仓库或是分布式存储的基础 之上。 • 大数据挖掘是传统手工业式的数据分析的现代大工业形式 。
Web挖掘
• 基于互联网的挖掘(Web挖掘)是利用数据挖掘技术从互 联网上的文档中及互联网服务上自动发现并提取人们感兴 趣的信息。
CRIAP-DM数据挖掘过程示意图
• 业务理解 • 数据理解 • 数据准备 • 建模 • 评估 • 部署
数据挖掘的评估
• 准确性 • 性能 • 功能性 • 可用性 • 辅助功能
数据挖掘的应用发展
• 营销领域的零售业 • 直效行销界 • 制造业 • 业务金融保险 • 通信业 • 医疗服务业 • 各种政府机关
数据挖掘的应用发展
• 尿不湿和啤酒 • 某百货零售企业将强大的数据挖掘软件用在销售数据库上
,得出了一个有意思的结论,那些前来为周末采购啤酒的 男性客户往往会想起妻子让他们买纸尿裤,或者那些周末 前来购买纸尿裤的男性客户会同时为自己购买啤酒,所以 他们会将两种商品都放入购物车里。于是该零售企业很快 将销售纸尿裤和啤酒的柜台放到不远的地方,进而销售量 大增。
}else{ if(obj.财富>=1000000000) then{ print(+”是高富"); }else{ print(+"是屌丝")• (1)我们先根据训练子集形成一个初始的决策树。 • (2)如果该树不能对所有对象给出正确的分类,那么选择
一些例外加入到训练子集中。 • (3)重复该过程一直到形成正确的决策集。
分类算法:神经网络
• 神经网络是通过对人脑的基本单元————神经元的建模 和链接,探索模拟人脑神经系统功能的模型,并研制一种 具有学习、记忆和模式识别等智能信息处理功能的人工系 统。
神经元结构
分类算法:神经网络
• 简单BP神经网络
大数据挖掘
2013-4-18
大数据处理技术的重要性
Gartner(高德纳)公司研究 认为,新产生的数据量每年 正以50%的速度递增,而这 个速度使得每年新增的数据 量不到两年就会翻一番。
大数据的基本特点
大量化(Volume) 多样化(Variety) 快速化 (Velocity) 价值(Value)
数据挖掘研究发展
• 对于大规模数据的存储、管理和使用,包括在分布式环境 上建立数据仓库的方式方法。
• 知识发现语言的形式化描述和算法,既研究专门用于知识 发现的数据挖掘语言。
• 数据挖掘过程中的可视化方法,使知识发现的过程能够更 容易被用户理解,业便于在知识发现的过程中进行人机交 互。
• 生物信息和基因的数据挖掘。 • Web数据挖掘的各个方面。
蠓虫分类问题可概括叙述如下:生物学家试图对两种蠓虫(Af与Apf)进行 鉴别, 依据的资料是触角和翅膀的长度,已经测得了9 支Af和6 支Apf 的数据如下 : Af: (1.24,1.27),(1.36,1.74) ,(1.38,1.64) ,(1.38,1.82) ,(1.38,1.90) , (1.40,1.70) , (1.48,1.82) ,(1.54,1.82) ,(1.56,2.08). Apf: (1.14,1.82),(1.18,1.96) ,(1.20,1.86) ,(1.26,2.00) ,(1.28,2.00) , (1.30,1.96). 现在的问题是: (i )根据如上资料,如何制定一种方法,正确地区分两类蠓虫。 (ii )对触角和翼长分别为(1.24,1.80) ,(1.28,1.84) 与(1.40,2.04) 的3 个标 本,用所得到的方法加以识别。
• 可分为三类:内容挖掘 结构挖掘 用户访问模式挖掘
数据挖掘的基本流程
• 信息收集 • 数据集成 • 数据规约 • 数据清理 • 数据变换 • 数据挖掘过程 • 模式评估 • 知识表示
数据规约,数据清理,数据变换 又合称数据预处理。在数据挖掘 中,至少60%的费用可能花费在 信息收集阶段,而其中至少60% 以上的精力和时间花在数据预处 理的过程中。
数据挖掘的应用发展
• Target和怀孕预测指数
• 美国一名男子闯入他家附近的一家美 国零售连锁超市Target店铺(美国第 三大零售商塔吉特)进行抗议:"你 们竟然给我17岁的女儿发婴儿尿片和 童车的优惠券。"店铺经理立刻向来 者承认错误,但是其实该经理并不知 道这一行为是总公司运行数据挖掘的 结果。如图2-1所示。一个月后,这 位父亲来道歉,因为这时他才知道他 的女儿的确怀孕了。Target比这位父 亲知道他女儿怀孕的时间足足早了一 个月。
分类算法应用
• 直邮营销 • 客户流失模型 • 垃圾邮件处理 • 信用卡分级
分类算法
• 基于决策树的分类算法 • 决策树其叶节点是类别名称,中间节点是带有分枝的属性
,每个分枝对应该属性的某一可能值。
if(obj.相貌==‘ 帅’) then{ if(obj.财富>=1000000000) then{ print(+"高富帅"); }else{ print(+“是帅哥");
数据挖掘十大经典算法
• C4.5 一种分类决策树算法 • The K-means algorithm即k-means算法 • SVM(Support Vector Machine) 支持向量机 • The Apriori Algorithm • 最大期望(EM)算法 • PageRank • AdaBoost • KNN,K最近邻分类算法 • Naive Bayes朴素贝叶斯 • CART,分类与回归树
大数据的基本特点
• 数据的可验证性(Verification) • 可变性(Variability) • 真实性(Veracity) • 邻近性(Vicinity)
从数据分析到数据挖掘
• 数据本身不同(数据量的不同,数据类型的不同) • 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知
识。 • 数据分析有明确目标的特点,数据挖掘是一个知识发现的