智能数据分析
• 每个案例的入口由一条或多条决定 所有属性值的线组成
2020/3/22
See5…应用…
• 应用.测试—提供测试案例的信息(
用于结果评价)
• 每个案例的入口由一条或多条决定 所有属性值的线组成
2020/3/22
See5…应用…实例…
• 流行病学研究(1970-1990) • 在这段时间内死于心血管病的受试者样本 • 问题:他们知道自己生病了吗?
-> 2组 [0.938]
2020/3/22
See5…应用…实例…
• 结果—实例
规律 15:(包括2名) 收缩压<=111 油脂>2.9
-> 2组别 [0.750]
2020/3/22
See5…应用…实例…
• 结果—实例
训练数据评价(199例)
(a)
(b)
<-分组为
----
----
107
3
(a): 组 1
规律就是…
• 用来规定建议、指令或策略的正规 方式。常用“如果前提,那么结论 ”或“如果条件那么行为”的形式 表达
2020/3/22
怎样发现隐藏在数据中 的规律?
2020/3/22
一些IDA的工具…
• See5—以决策树和/或规律设置的 形式来分析数据和生成分类器的程 序
rulequest
2020/3/22
2020/3/22
绩效目标
• 识别需要使用IDA来解决的问题 • 准备数据并进行分析 • 验证并解释IDA的结果
2020/3/22
IDA就是…
• …与有效的数据分析相关的多学科研究 • …用来从大量的联机数据中提取有用信
息;从固有数据库中提取需要的知识和 感兴趣的模型。
2020/3/22
IDA还是…
17
72
(b): 组 2
2020/3/22
See5…应用…实例…
• 结果—实例(训练集) 灵敏性=0.97 特异性=0.81
2020/3/22
See5…应用…实例…
• 结果—实例
测试数据评价(73例)
(a)
(b)
<-分组为
----
----
43
1
(a): 组 1
ห้องสมุดไป่ตู้
3
26
(b): 组 2
2020/3/22
IDA举例
使用See5进行IDA演示
2020/3/22
See5…应用…
• 应用.姓名—列出案例可能所属的组
别以及用来描述每个案例的属性
• 属性有两类:离散属性从一系列可 能性中提取出一个数值,而连续性 属性有数字值
2020/3/22
See5…应用…
• 应用.数据—提供训练案例的信息,
See5从中提取出模型
• 数据开发(data mining) • 从数据中获得的知识 • 基于算法(algorithm-based)的遗传规律
的发现 • 知识的发现 • 学习分类系统 • 机器学习(machine learning) • 其他
2020/3/22
IDA提供知识…
2020/3/22
知识就是…
• 经过收集,分类,组织,整合,概括 和增值的信息的精华
See5…应用…实例…
• 结果—实例(测试集) 灵敏性=0.98 特异性=0.90
2020/3/22
所有推荐的IDA工具在提到的URL上 都是可用的,至少也有测试版本
试试你自己的IDA…
谢谢!
2020/3/22
1—他们是健康的 2—他们有疾病(药物治疗,临床和实验室检
查阳性结果)
2020/3/22
See5…应用…实例…
• 应用.姓名—实例
目标 性别:男,女 活性:1,2,3 年龄:连续的 吸烟:否,是 — 目标:1,2 —
2020/3/22
See5…应用…实例…
• 应用.数据—实例
男,1,59,是,0,0,0,0,119,73,103,86,247,87, 15979,?,?,?,1,73,2.5 男,1,66,是, 0,0,0,0,132,81,183,239,?,783, 14403,27221,19153,23187,1,73,2.6 男,1,61,否, 0,0,0,0,130,79,148,86,209,115, 21719,12324,10593,11458,1,74,2.5 ……
2020/3/22
一些IDA的工具…
• Magnum Opus—找寻相关性规律 ,因可以揭示数据中因素之间潜在 的相互作用而具有竞争性优势
rulequest
2020/3/22
IDA结果评价
• 绝对&相对精确性 • 灵敏性&特异性 • 假阳性&假阴性 • 误差率 • 规律的可靠性 • 及其他
2020/3/22
2020/3/22
对智能数据分析的兴趣和激情
• 决策的过程就是寻求信息和知识的 过程
• 数据处理可以提供这些 • 问题的多维度在于寻找合适的解决
方案和进行深入的数据处理和分析
2020/3/22
学习目标
• 理解IDA的概念 • 浏览相关的网页和文献 • 接触一些IDA的工具 • 学习如何使用IDA工具和验证IDA的结果
一些IDA的工具…
• Cubist—分析数据和生成基于规律 的分段线形模型—规律的集合,每 个规律都有相关的线形表达来计算 目标值…
rulequest
2020/3/22
一些IDA的工具…
• ILLM—此工具以规律的形式建立了 分类模型,这种规律阐述了有关隐 藏在数据中的关系的知识
dms.irb.hr
• 位于比资料和信息更高的抽象概念的 水平,并能用来推出新的信息和知识
• 往往表现为用来解决特定问题的专门 技能
2020/3/22
知识的获得…
• 是一个抽提、分析、转换、分类、 组织和整合知识并以一种能用于计 算机系统的形式来阐明的过程
2020/3/22
一个领域的知识能用一系列的 规律来表达
2020/3/22
2020/3/22
See5…应用…实例…
• 结果—实例
规律 1:(包括26名) 性别=男 收缩压>111 油脂>2.9
-> 1组 [0.929]
2020/3/22
See5…应用…实例…
• 结果—实例
规律 4:(包括14名) 吸烟=是 收缩压>131 葡萄糖>93 葡萄糖<=118 油脂<= 2.9