当前位置：文档之家› 《数据挖掘导论》教材配套教学PPT——第1章认识数据挖掘

《数据挖掘导论》教材配套教学PPT——第1章认识数据挖掘

• 数据实例（Instance）
– 用于有指导学习的样本数据
• 训练实例（Training Instance）
– 用于训练的实例
• 检验实例（Test Instance）
– 分类模型建立完成后，经过检验实例进行检验，判断模型是否能够很好地应用在未知实例的分类或预测中。
2022年3月23日星期三
第10页，共65页
Knowledge）
2022年3月23日星期三
第21页，共65页
1.4 专家系统
清华大学出版社
专家系统（Expert System）
• 一种具有“智能”的计算机软件系统。 • 能够模拟某个领域的人类专家的决策过程，解决那些需要人类专家
处理的复杂问题。 • 一般包含以规则形式表示的领域专家的知识和经验，系统就是利用
• 决策树有很多算法（第2章）
Sore-throat Yes Cooling-effect
Not good
Unknown Good
No
Cold Type=Viral (3/0)
Cold Type=Bacterial (4/1)
Cold Type=Viral (2/0)
Cold Type=Bacterial (1/0)
Sore-
throat 咽痛
Cooling-
effect 退热效果
Group 群体发病
Cold-type 感冒类型
1
Yes
2
No
3
Yes
4
Yes
5
No
6
No
7
No
8
Yes
9
Yes
10
Yes
No
Yes
Yes
Yes
Yes
No
No
Yes
Yes
No
No
Yes
No
No
No
Yes
Yes
Yes
Yes
Yes
No
No
2、数据仓库
– 数据仓库（Data Warehouse）是面向决策支持而不是日常事务处理而设计的。
3、平面文件
– 一些数据量较小的数据集可以存储在如Excel电子表格、.csv、.arff等平面文件中。
2022年3月23日星期三
第27页，共65页
1.5.2 挖掘数据
清华大学出版社
• 选择一种数据挖掘技术或算法，将数据提交给数据挖掘工具，应用该算法建立模型。
2022年3月23日星期三
第5页，共65页
1.2 机器学习
1.2.1 概念学习
清华大学出版社
• 通过对大量实例进行训练，从中发现经验化规律的过程。 • 机器学习结果的通常表现形式为概念。 • 机器最擅长的是学习概念。 • 概念（Concept）
– 具有某些共同特征的对象、符号或事件的集合。
• 概念可以从三个不同的角度来看待
• 决策树一般都可以被翻译为一个产生式规则集合。 • 产生式规则的格式为：
– IF 前提条件 THEN 结论
• 图1.1翻译为4条产生式规则
（1）IF Sore-throat = No THEN Cold-type = Viral （2）IF Sore-throat = Yes & Cooling-effect = Good THEN Cold-type = Viral （3）IF Sore-throat = Yes & Cooling-effect = Not good THEN Cold-type = Bacterial （4）IF Sore-throat = Yes & Cooling-effect = Unknown THEN Cold-type = Bacterial
2022年3月23日星期三
第15页，共65页
清华大学出版社
1.2.4 无指导的聚类（Unsupervised Clustering）
• 无指导（监督）聚类
– 一种无指导（无教师）的学习；
• 在学习训练之前，无预先定义好分类的实例，数据实例按照某种相似性度量方法，计算实例之间的相似程度，将最为相似的实例聚类在一个组——簇（Cluster）中，再解释和理解每个簇的含义，从中发现聚类的意义。
– 样本角度中的概念是将某个概念中的典型实例组成一个集合，使用该集合来描述概念定义。
2022年3月23日星期三
第8页，共65页
清华大学出版社
1.2.2 归纳学习（Induction-Based Learning）
• 基于归纳的学习
– 机器学习方式 – 人类学习最重要方式之一
• 人类通过对事物的特定实例的观察，对所掌握的已有经验材料研究。
算法、EM算法等。 – K-means算法是一种最为常用和易用的算法。
• 指定初始簇
– K-means（K-均值）算法在聚类前指定一个初始的簇的个数，本例指定为2。
2022年3月23日星期三
第18页，共65页
聚类结果
清华大学出版社
• 聚类为两个簇，每个簇有5个实例，分别为
– Cluster0 = {1,3,4,8,9} – Cluster1 = {2,5,6,7,10}
2022年3月23日星期三
第19页，共65页
1.3 数据查询
数据查询（Data Query）
清华大学出版社
• 通过数据查询语言在数据中找出所需要的数据或信息。
• 什么时候使用数据挖掘，什么时候使用数据查询呢？
– 获取浅知识或多维知识（Multidimensional Knowledge） – 获取数据中潜在的、隐藏的信息或知识——隐含知识（Hidden
（1）准备数据，包括准备训练数据和检验数据（2）选择一种数据挖掘技术或算法，将数据提交给数据挖掘软件（3）解释和评估结果（4）模型应用
数据准备
数据挖掘
数据解释和评估
传统数据库/数据仓库/平面文件
数据挖掘技术和算法
2022年3月23日星期三
图1.3 数据挖掘实验过程示意图
模型应用第26页，共65页
• 归纳学习
– 从归纳中获取和探索新知识，并以概念的形式表现出来的学习。
2022年3月23日星期三
第9页，共65页
清华大学出版社
1.2.3 有指导的学习（Supervised Learning）
• 定义
– 通过对大量已知分类或输出结果值的实例进行训练，调整分类模型的结构，达到建立能够准确分类或预测未知模型的目的。这种基于归纳的概念学习过程被称为有指导（监督）的学习。
这些知识和方法进行推理和判断，从而解决该领域中实际问题。 • 专家（Expert）
– 有能力解决领域中复杂问题的人通常被称为该领域中的专家（Expert）
2022年3月23日星期三
第23页，共65页
清华大学出版社
专家系统方法与数据挖掘方法
人类领域专家
知识工程师
数据
专家系统创建工具
数据挖掘工具
规则： IF Sore-throat = No THEN Cold-type = Viral
【例1.1】
给定如表1.1所示的数据集T，使用有指导的学习方法建立分类模型，对未知类别的实例进行分类。
表1.1 感冒诊断假想数据集
清华大学出版社
表1.1 感冒诊断假想数据集
序号
Increased -lym 淋巴细胞升高
Leukocytosis 白细胞升高
Fever 发烧
Acute-
onset 起病急
• 每个簇的概念结构可以表示为一个产生式规则
（1）IF Increased -lym = Yes & Cooling-effect =Good THEN Cluster = 0 （rule accuracy = 4/4 = 100%，rule coverage = 4/5 = 80%）（2）IF Sore-throat = Yes & Cooling-effect = Not good THEN Cluster = 1 （rule accuracy = 4/4 = 100%，rule coverage = 4/5 = 80%）
规则： IF Sore-throat = No THEN Cold-type = Viral
2022年3月23日星期三
图1.2 专家系统方法vs 数据挖掘方法
第24页，共65页
1.5 数据挖掘的过程
KDD过程
清华大学出版社
• 数据挖掘是KDD过程中的一个阶段（第3章） • 一次数据挖掘实验分为4个步骤
2022年3月23日星期三
第7页，共65页
1.2.1 概念学习
清华大学出版社
1、传统角度（Classical View）
– 所有概念都有明确的定义。
2、概率角度（Probabilistic View）
– 对个别样本实例进行概括性描述，概括性说明构成了概率角度中的概念。
3、样本角度（Exemplar View）
Acute-
onset 起病急
Sore-
throat 咽痛
Cooling-
effect 退热效果
Group Cold-type 群体发病感冒类型
No
Yes
Yes
No
No
Not good
No
?
Yes
No
Yes
No
Yes
Good
No
?
2022年3月23日星期三
第14页，共65页
产生式规则
清华大学出版社
图1.1 感冒类型诊断C4.5决策树
2022年3月23日星期三
第13页，共65页
分类未知实例

e商务文档

《数据挖掘导论》教材配套教学PPT——第1章认识数据挖掘

相关文档推荐：

e商务文档

《数据挖掘导论》教材配套教学PPT——第1章 认识数据挖掘

相关文档推荐：

《数据挖掘导论》教材配套教学PPT——第1章认识数据挖掘