当前位置:
文档之家› 数据挖掘基础培训讲义-数据挖掘概述
数据挖掘基础培训讲义-数据挖掘概述
纸媒介, 文件, 信息来源, 数据库, OLTP
最终用户
业务 分析师
数据 分析师
DBA
15
典型数据挖掘系统的架构
图形用户界面
模式评价
数据挖掘引擎
数据库或数据仓库
服务器
数据清洗 & 数据集成
过滤
数据库
数据 仓库
2020/10/9
知识库
16
数据挖掘: 在何种数据上进行?
关系数据库 数据仓库 交易数据库 高级数据库和信息仓库
面向对象和对象关系数据库 空间数据库 时间序列数据和时态数据 文本数据库和多媒体数据库 异构数据库和遗留数据库 因特网
DM基础-1
数据挖掘概述
教材内容来源于《数据挖掘:概念与技术》 第1章 引言
(Jiawei Han and Micheline Kamber)
2020/10/9
1
课程大纲
什么激发了数据挖掘? 什么是数据挖掘? 在何种数据上进行数据挖掘? 数据挖掘功能 所有模式都是有意义的吗? 数据挖掘系统的分类 数据挖掘中的主要问题
应用
广泛用于健康卫生,零售,信用卡服务,电信(电话卡欺诈)等 行业
方法
使用历史数据来构造欺诈行为模型,同时利用数据挖掘来辅助识 别出类似案例
示例
汽车保险: 检测出那些伪造事故来骗取保险金的人群 洗钱: 检测可疑的金钱交易(美国财政部的金融犯罪执行网络) 医疗保险: 检测出职业病人
2020/10/9
因特网冲浪辅助
IBM Surf-Aid利用数据挖掘算法来分析与销售有关的Web访问日 志,发现用户的偏好和行为,分析电子商务的有效性,改善网站 的结构等
2020/10/9
12
数据挖掘: 一个KDD过程
模式评价
数据挖掘: 知识发现过程 的核心
数据挖掘
任务相关的数据
数据仓库
选取
数据清洗 数据集成
2020/10/9
6
市场分析和管理 (1)
分析的数据源在哪里?
信用卡交易,积分卡,折扣优惠券,客户抱怨电话,以及(公众) 生活方式研究
目标营销
发现具有相同特征的客户群模型:兴趣,收入水平,消费习惯等
判别客户的序列购买模式
从单身账户到共有账户的转变:结婚
交叉销售分析
产品销售之间的关联 基于关联信息而进行的预测
零售
分析家估计大约38%的零售额减少是由于不诚实的员工造成的
2020/10/9
11
其它应用
体育
IBM Advanced Scout分析了NBA比赛的统计数据(阻攻, 助攻, 犯 规等),帮助纽约尼克斯队和迈阿密热队提高竞争优势
天文学
JPL和Palomar天文台借助数据挖掘技术发现了22颗类星体
数据库
2020/10/9
13
KDD过程的步骤
对应用领域的研究:
相关的预备知识和应用的目标
建立目标数据集: 数据选取 数据清洗和预处理: (可能占据多达60%的工作量!) 数据归约和转换:
找出有用的特征, 维度/变量归约, 不变式转换
选择数据挖掘功能
综合, 分类, 回归, 关联, 聚类.
10
欺诈检测和管理(2)
检测出不必要的医疗处理
澳大利亚医疗保险委员会查出在许多案例中病人都要求blanket screening tests (每年节省一百万澳元)
检测电话欺诈
通话模型:对端号码,通话时长,每天(周)通话次数。分析那 些偏离预期的通话模式
英国电信检测出频繁进行集团内部通话(特别是用手机通话)的 一些犯罪集团,成功避免了数百万美元的欺诈
3
数据库技术的演化
(参见图1.1)
1960s:
数据集合,数据库创建,IMS和网络数据库
1970s:
关系数据模型,关系数据库系统实现
1980s:
RDBMS,高级数据模型(扩展关系模型,面向对象模型,演绎模 型等)和面向应用的数据库管理系统(空间,科学,工程等)
1990s—2000s:
数据挖掘和数据仓库,多媒体数据库和Web数据库
选择挖掘算法 数据挖掘: 找出有意义的模式 模式评价和知识表达
可视化, 转换, 消除冗余模式等等
利用发现的知识
2020/10/9
14
数据挖掘和商业智能
增加支持 商业决策
的 潜能
2020/10/9
制定 决策
数据表达 可视化技术
数据挖掘 信息发现
数据探索 统计分析, 查询和报表
数据仓库 / 数据集市 OLAP, MDA 数据源
2020/10/9
4
什么是数据挖掘?
数据挖掘(数据库中的知识发现):
从大型数据库中抽取有意义的(非平凡的,隐含的,以前未 知的并且是有潜在价值的)信息或模式
其它类似术语:
数据挖掘:是否用词不当? 数据库中的知识发现(KDD),知识抽取,数据/模式分析,
数据考古,数据捕捞,商业智能等
什么不属于数据和管理 (2)
构造客户特征
数据挖掘可以告诉您哪种客户会购买哪种产品 (通过聚类或分类)
识别出客户需求
识别出适合不同客户的最佳产品 通过预测来发现吸引新客户的因素
提供综合信息
各种各样的多维综合报表 统计上的综合信息(数据的集中趋势和变化)
2020/10/9
(演绎)查询处理 专家系统或小型的机器学习/统计分析程序
2020/10/9
5
为何进行数据挖掘?— 潜在应用
数据库分析和决策支持
市场分析和管理
目标营销,客户关系管理,购物篮分析,交叉销售,市场分 段
风险分析和管理
预测,客户保持,降低风险,质量控制,竞争力分析
欺诈检测与管理
其它应用
文本挖掘(新闻组,电子邮件,文档)和Web分析 智能询问解答(QA)系统
2020/10/9
2
动机:“需要是发明之母”
数据爆炸问题 自动化的数据收集工具和成熟的数据库技术导致了数据库、数据 仓库和其它信息仓库中储存了海量数据
数据丰富,但信息贫乏! 解决方案:数据仓库和数据挖掘
数据仓库和联机分析处理
从海量数据中抽取出有意义的知识(规则、规律、模式、约束)
2020/10/9
8
集团分析和风险管理
财政计划和资产评估
现金周转分析和预测 资产评估中的相机要求分析 交叉组合分析和时间序列分析(财务比率,趋势分析等)
资源规划
资源和开销的总结和比较
竞争力
监视竞争对手和市场导向 对客户分组并基于分类制定价格 在激烈的竞争市场中制定价格策略
2020/10/9
9
欺诈检测和管理 (1)