数据挖掘算法及软件介绍.
Page 6
二-1:分类算法及案例分析
分类:
– 预测种类字段 – 基于训练集形成一个模型,训练集中的类标签是已知的 。使用该模型对新的数据进行分类
预测:
– 对连续性字段进行建模和预测。
典型应用
– – – – 信用评分 Direct Marketing 医疗诊断 性用卡欺诈判断
Page 7
二-1:分类算法及案例分析
Page11
二-2:聚类分析及案例
• 簇(Cluster):一个数据对象的集合 • 聚类分析
– 把一个给定的数据对象集合分成不同的簇; – 在同一个簇(或类)中,对象之间具有相似性; – 不同簇(或类)的对象之间是相异的。
• 聚类是一种无监督分类法: 没有预先指定的类别; • 典型的应用
– 作为一个独立的分析工具,用于了解数据的分布; – 聚类之后分析异常数据; – 作为其它算法的一个数据预处理步骤;
Page 3
一、数据挖掘概念及流程
解释/评估
数据挖掘 预处理 及变换
变换后的数据
数据清理筛选 目标数据 数据
Page 4
二:数据挖掘方法分类介绍
时间序列 数据挖掘 聚类分析 相关性分析 K-means K-中心点算法 关联规则 Apriori算法 统计分析 异常点分析 回归分析 KNN算法 Bayes算法 分类算法 决策树算法 决策树 神经网络 时间序列 统计回归 分类分析 预测 序列模式挖掘 非时间序列
Page14
二-2:聚类分析及案例
表 ——某企业28位职工绩效考评结果
职工 代号 1 2 3 4 5 6 7 8 9 10 11 12
工作 产量 工作 质量 工作 出勤 工砟 损耗 工作 态度 工作 能力
16 17 18 19 20 21
7.36 7.24 6.49 5.43 4.57 6.43
8.53 8.61 8.03 7.67 7.4 8.38
5.39 4.69 4.56 4.22 2.96 4.87
7.09 3.98 7.18 3.87 3.02 4.87
8.23 9.04 8.54 8.41 8.74 8.78
8.04 8.07 8.57 7.6 7.97 8.37
9.68 8.09 7.46 6.08 6.61 7.69 7.46 7.6 7.6 7.16 6.04 6.27
异常分析
线性回归
逻辑回归
方差、极差、偏度等统计特征值 SLIQ C4.5 CART CHAID
概率回归
Page 5
二:数据挖掘方法分类介绍
• 挖掘模式
– 预测型(Predictive) – 描述型(Descriptive)
• 实际功能分为以下几种模式:
分类:对没有分类的数据进行分类; 预测:用历史来预测未来; 关联分析:关联规则; 聚类:物以类聚; 序列模式:在多个数据序列中发现共同的行为模式; 异常分析:从数据分析中发现异常情况。 文本数据挖掘:从大量2:聚类分析及案例
聚类方法也常用于进行异常数据鉴别。
Page13
二-2:聚类分析及案例
案例背景 随着现代人力资源管理理论的迅速发展,绩效考评技术 水平也在不断提高。绩效的多因性、多维性,要求对绩效 实施多标准大样本科学有效的评价。对企业来说,对上千 人进行多达50~60个标准的考核是很常见的现象。但是, 目前多标准大样本大型企业绩效考评问题仍然困扰着许多 人力资源管理从业人员。 本案例将列举某企业的具体情况确定适当的考核标准 ,采用主成分分析以及聚类分析方法,比较出各员工绩效 水平,从而为企业绩效管理提供一定的科学依据。
需要的历史数据表
客户ID 训练 数据 1 年龄 19 学历 中专 是否有 房 无 是否结 婚 1 变量5 变量6 变量7 …… 是否欺诈 1
2 3
30 28
40 18 33
大学 高中
大学 中专 大学
有 有
有 无 无
0 0
1 1 1
0 1
0 1 1
测试 数据
4 5 6
需要判断的新业务数据表
客户ID 需要判 断的新 数据 7 年龄 27 学历 高中 是否有 房 有 是否结 婚 0 变量5 变量6 变量7 …… 是否欺诈 ?
8 9
48 34
高中 大学
无 有
1 1
? ?
结论:可以得出ID为7的客户卡属于欺诈的可能性为90%,ID为8 和9的客户不是欺诈的可能性为95%。
Page 8
二-1:分类算法及案例分析
年龄 18<=22
学历? 0 1 1 0 overcast 23-30 0 30-35 是否结婚? 1 0 0 1
根据规则去执行相应的措施和政策方针: 一: 第一类和第三类人群,不通过信用卡审批或者降低信用卡额度,增加 调查力度。 二: 信用卡用户的营销策略,按使用情况和年限增加额度.业务主要针对 此类人群宣传或者增加第二类信用卡用户的比率。
Page10
二-1:分类算法及案例分析
行业应用:
• • • • • 1)城市综合环境质量评价 2)保险、医疗、信用卡等等反欺诈模型 3) 客户、企业信用评级模型 4)公安犯罪预警预测 5)气候分类、农业区划、土地类型划分中有着 广泛的应用
Page 2
一、数据挖掘概念及流程
数据挖掘(Data Mining)就是对观 测到的数据集(经常是庞大的、不完全的 、有噪声的、模糊的、随机的)进行分析 ,提取隐含在其中的、人们事先不知道的 、但又是潜在有用的信息和知识,目的是 发现未知的关系和以数据拥有者可以理解 并对其有价值的新颖方式来总结数据。
数据挖掘功能简介
Page 1
主要内容
一、数据挖掘概念及流程 二、数据挖掘方法分类介绍
二-1、分类算法及案例 二-2、聚类分析及案例 二-3、关联规则及案例 二-4、时间序列分析及案例 二-5、回归分析及案例 二-6、异常分析及案例 二-7、文本挖掘 二-8、推荐系统
三、常用数据挖掘软件介绍 四:数据挖掘和分析应避免的误区误 区
决策树
Page9
二-1:分类算法及案例分析
结论规则: 第一类: 年龄在18-35岁之间,学历是高中,还没有住房的人群,可能 发生信用卡欺诈的概率是97%. 第二类: 年龄在23-45岁之间,学历是本科,有住房的人群,可能发生 信用卡欺诈的概率是1%. 第三类: 年龄在30-55岁之间,学历是小学,无住房的人群,可能发生 信用卡欺诈的概率是80%.