当前位置:文档之家› 《数据挖掘导论》教材配套教学PPT——第1章 认识数据挖掘

《数据挖掘导论》教材配套教学PPT——第1章 认识数据挖掘


• 数据实例(Instance)
– 用于有指导学习的样本数据
• 训练实例(Training Instance)
– 用于训练的实例
• 检验实例(Test Instance)
– 分类模型建立完成后,经过检验实例进行检验,判断模型是否 能够很好地应用在未知实例的分类或预测中。
2022年3月23日星期三
第10页,共65页
Knowledge)
2022年3月23日星期三
第21页,共65页
1.4 专家系统
清华大学出版社
专家系统(Expert System)
• 一种具有“智能”的计算机软件系统。 • 能够模拟某个领域的人类专家的决策过程,解决那些需要人类专家
处理的复杂问题。 • 一般包含以规则形式表示的领域专家的知识和经验,系统就是利用
• 决策树有很多算法(第2章)
Sore-throat Yes Cooling-effect
Not good
Unknown Good
No
Cold Type=Viral (3/0)
Cold Type=Bacterial (4/1)
Cold Type=Viral (2/0)
Cold Type=Bacterial (1/0)
Sore-
throat 咽痛
Cooling-
effect 退热效果
Group 群体发病
Cold-type 感冒类型
1
Yes
2
No
3
Yes
4
Yes
5
No
6
No
7
No
8
Yes
9
Yes
10
Yes
No
Yes
Yes
Yes
Yes
No
No
Yes
Yes
No
No
Yes
No
No
No
Yes
Yes
Yes
Yes
Yes
No
No
2、数据仓库
– 数据仓库(Data Warehouse)是面向决策支持而不是日常事务处理 而设计的。
3、平面文件
– 一些数据量较小的数据集可以存储在如Excel电子表格、.csv、.arff等 平面文件中。
2022年3月23日星期三
第27页,共65页
1.5.2 挖掘数据
清华大学出版社
• 选择一种数据挖掘技术或算法,将数据提交给数据挖 掘工具,应用该算法建立模型。
2022年3月23日星期三
第5页,共65页
1.2 机器学习
1.2.1 概念学习
清华大学出版社
• 通过对大量实例进行训练,从中发现经验化规律的过程。 • 机器学习结果的通常表现形式为概念。 • 机器最擅长的是学习概念。 • 概念(Concept)
– 具有某些共同特征的对象、符号或事件的集合。
• 概念可以从三个不同的角度来看待
• 决策树一般都可以被翻译为一个产生式规则集合。 • 产生式规则的格式为:
– IF 前提条件 THEN 结论
• 图1.1翻译为4条产生式规则
(1)IF Sore-throat = No THEN Cold-type = Viral (2)IF Sore-throat = Yes & Cooling-effect = Good THEN Cold-type = Viral (3)IF Sore-throat = Yes & Cooling-effect = Not good THEN Cold-type = Bacterial (4)IF Sore-throat = Yes & Cooling-effect = Unknown THEN Cold-type = Bacterial
2022年3月23日星期三
第15页,共65页
清华大学出版社
1.2.4 无指导的聚类(Unsupervised Clustering)
• 无指导(监督)聚类
– 一种无指导(无教师)的学习;
• 在学习训练之前,无预先定义好分类的实例,数据实例 按照某种相似性度量方法,计算实例之间的相似程度, 将最为相似的实例聚类在一个组——簇(Cluster)中, 再解释和理解每个簇的含义,从中发现聚类的意义。
– 样本角度中的概念是将某个概念中的典型实例组成一个集合, 使用该集合来描述概念定义。
2022年3月23日星期三
第8页,共65页
清华大学出版社
1.2.2 归纳学习(Induction-Based Learning)
• 基于归纳的学习
– 机器学习方式 – 人类学习最重要方式之一
• 人类通过对事物的特定实例的观察,对所掌握的已有 经验材料研究。
算法、EM算法等。 – K-means算法是一种最为常用和易用的算法。
• 指定初始簇
– K-means(K-均值)算法在聚类前指定一个初始的簇的个数, 本例指定为2。
2022年3月23日星期三
第18页,共65页
聚类结果
清华大学出版社
• 聚类为两个簇,每个簇有5个实例,分别为
– Cluster0 = {1,3,4,8,9} – Cluster1 = {2,5,6,7,10}
2022年3月23日星期三
第19页,共65页
1.3 数据查询
数据查询(Data Query)
清华大学出版社
• 通过数据查询语言在数据中找出所需要的数据或信息。
• 什么时候使用数据挖掘,什么时候使用数据查询呢?
– 获取浅知识或多维知识(Multidimensional Knowledge) – 获取数据中潜在的、隐藏的信息或知识——隐含知识(Hidden
(1)准备数据,包括准备训练数据和检验数据 (2)选择一种数据挖掘技术或算法,将数据提交给数据挖掘软件 (3)解释和评估结果 (4)模型应用
数据准备
数据挖掘
数据解释和评估
传统数据库/数据仓库/平面文件
数据挖掘技术和算法
2022年3月23日星期三
图1.3 数据挖掘实验过程示意图
模型应用 第26页,共65页
• 归纳学习
– 从归纳中获取和探索新知识,并以概念的形式表现出来的学习。
2022年3月23日星期三
第9页,共65页
清华大学出版社
1.2.3 有指导的学习(Supervised Learning)
• 定义
– 通过对大量已知分类或输出结果值的实例进行训练,调整分类 模型的结构,达到建立能够准确分类或预测未知模型的目的。 这种基于归纳的概念学习过程被称为有指导(监督)的学习。
这些知识和方法进行推理和判断,从而解决该领域中实际问题。 • 专家(Expert)
– 有能力解决领域中复杂问题的人通常被称为该领域中的专家(Expert)
2022年3月23日星期三
第23页,共65页
清华大学出版社
专家系统方法 与 数据挖掘方法
人类领域专家
知识工程师
数据
专家系统创建工具
数据挖掘工具
规则: IF Sore-throat = No THEN Cold-type = Viral
【例1.1】
给定如表1.1所示的数据集T,使用有指导的学习方 法建立分类模型,对未知类别的实例进行分类。
表1.1 感冒诊断假想数据集
清华大学出版社
表1.1 感冒诊断假想数据集
序号
Increased -lym 淋巴细胞升高
Leukocytosis 白细胞升高
Fever 发烧
Acute-
onset 起病急
• 每个簇的概念结构可以表示为一个产生式规则
(1)IF Increased -lym = Yes & Cooling-effect =Good THEN Cluster = 0 (rule accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%) (2)IF Sore-throat = Yes & Cooling-effect = Not good THEN Cluster = 1 (rule accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%)
规则: IF Sore-throat = No THEN Cold-type = Viral
2022年3月23日星期三
图1.2 专家系统方法vs 数据挖掘方法
第24页,共65页
1.5 数据挖掘的过程
KDD过程
清华大学出版社
• 数据挖掘是KDD过程中的一个阶段(第3章) • 一次数据挖掘实验分为4个步骤
2022年3月23日星期三
第7页,共65页
1.2.1 概念学习
清华大学出版社
1、传统角度(Classical View)
– 所有概念都有明确的定义。
2、概率角度(Probabilistic View)
– 对个别样本实例进行概括性描述,概括性说明构成了概率角度 中的概念。
3、样本角度(Exemplar View)
Acute-
onset 起病急
Sore-
throat 咽痛
Cooling-
effect 退热效果
Group Cold-type 群体发病 感冒类型
No
Yes
Yes
No
No
Not good
No
?
Yes
No
Yes
No
Yes
Good
No
?
2022年3月23日星期三
第14页,共65页
产生式规则
清华大学出版社
图1.1 感冒类型诊断C4.5决策树
2022年3月23日星期三
第13页,共65页
分类未知实例
相关主题