数据挖掘技术教学大纲《数据挖掘技术》课程教学大纲一、课程基本信息二、课程教育目标(一)总体目标数据挖掘是高级数据处理和分析技术。
通过本课程学习,使学生了解数据挖掘这种现代数据分析和知识挖掘方法的思想与技术,了解数据挖掘的基本理论,掌握重要的数据挖掘方法,掌握如何利用Clementine实现数据分析和挖掘,并使学生具有进一步学习的基本与能力。
(二)具体目标1. 能够导入、输出各种类型的数据,并对数据进行简单描述统计2. 能够编写建立线性回归模型、非纯性回归模型、编写回归模型的程序,并能够通过程序检验模型3. 能够对数据进行聚类分析、分类分析、关联分析、能够对文本数据进行数据挖掘三、课程学时分配四、课程内容第一章数据挖掘和Clementine使用概述【教学内容】1.1 数据挖掘的产生背景1.数据挖掘产生的背景2.数据挖掘的发展3. 数据挖掘概述1.2 什么是数据挖掘1. 数据挖掘概念2. 数据挖掘分类3. 数据挖掘体系结构1.3 Clementine软件概述1. Clementine的配置2. Clementine操作基础【学习目标】本章作为绪论,其目的是让学生对数据挖掘技术有一个总体的认识。
因此,主要内容是对数据挖掘技术的概念、产生背景、发展趋势以及应用等进行提炼和概括,并熟悉Clementine软件的使用环境。
要求学生掌握以下内容:1.数据挖掘的发展2.数据挖掘基本知识3.数据挖掘功能4. 数据挖掘应用5. 数据挖掘的热点问题6. 熟悉Clementine软件【重点、难点】1.重点:(1)数据挖掘概念(2)数据挖掘分类2.难点:Clementine操作基础【教学方法】1.通过多媒体课件和传统教学相结合,阐明课程与教学基本原理,丰富学生课程与教学的基本知识结构,培养学生的职业规范;2.通过案例分析,强调理论与实践相结合,促进学生知识整合,培养学生的反思能力。
第二章 Clementine数据管理【教学内容】2.1 数据源节点(Sources)1.从开放数据库中导入数据2.从文本文件中读取数据3. 导入Excel格式的数据4. 用户手动创建数据2.2 记录选项节点(Record Ops)1. 选择节点2. 对数据的抽样3. 修正数据集中的不均匀性4. 统计汇总5. 对节点数据的排序6. 区分节点来清除重复记录2.3 字段选项节点1. 变量说明2. 变量值的重新计算3. 变量类别值的调整4. 生成新变量5. 变量值的离散化处理6. 生成样本集分割变量【学习目标】本章中的数据管理主要是指数据挖掘中的数据预处理部分。
对数据进行预处理,不但可以节约大量的空间和时间而且得到的挖掘结果能更好地起到决策和预测作用。
数据预处理一般包括:数据清理,数据集成,数据变换,数据归约等方法。
要求学生掌握本章讲授的所有数据管理技术。
【重点、难点】1.重点:(1)数据源节点(2)记录选项节点(3)字段选项节点2.难点:无【教学方法】1.通过多媒体课件和传统教学相结合,阐明课程与教学基本原理,丰富学生课程与教学的基本知识结构,培养学生的职业规范;2.通过案例分析,强调理论与实践相结合,促进学生知识整合,培养学生的反思能力。
第三章 Clementine数据的基本描述分析【教学内容】3.1 数据质量探索1.数据的基本描述与质量探索2.离群点和极端值的修正3. 缺失值的替补4. 数据质量管理的其他功能3.2 数据基本描述分析1. 计算基本描述统计量2. 绘制散点图3.3 两分类变量相关性的研究1. 两分类变量相关性的图形分析2. 两分类变量相关性的数值分析3.4 两总体的均值比较3.5 变量重要性分析【学习目标】基本描述分析是数据分析的基础,通常对数值型变量进行描述分析,涉及数据的集中趋势和离散程度。
描述集中趋势的描述性统计量一般有均值、中位数和众数;描述离散程度的描述性统计量一般有方差、标准差和极差。
要求学生掌握Clementine数据的基本分析方法。
【重点、难点】1.重点:(1)数据质量探索(2)数据基本描述分析2.难点:两分类变量相关性的研究【教学方法】1.通过多媒体课件和传统教学相结合,阐明课程与教学基本原理,丰富学生课程与教学的基本知识结构,培养学生的职业规范;2.通过案例分析,强调理论与实践相结合,促进学生知识整合,培养学生的反思能力。
第四章关联规则挖掘【教学内容】4.1 关联规则概述1.基本概念2.关联规则表示3. 关联规则挖掘算法简介4.2 Apriori算法1. Apriori算法生成频繁项集的过程2. Apriori算法从频繁项集产生关联规则4.3 在Clementine中应用Apriori算法4.4 序列模式挖掘1. 序列与序列模式2. Apriori算法3. 在Clementine中应用序列模式挖掘【学习目标】关联规则是形如X→Y的蕴涵式,其中,X和Y分别称为关联规则的先导和后继。
其中,关联规则X→Y,存在支持度和信任度。
本章对关联规则挖掘中的概念、方法、算法进行全面的分析和讲解。
由于关联规则挖掘是数据挖掘技术中研究最早、成果最多、相对比较成熟的分支,因此本章重点在于一些经典理论和算法、热点问题的介绍。
要求学生掌握以下内容:1.关联规则相关概念2.Apriori算法3.在Clementine中应用Apriori算法【重点、难点】2.重点:(1)关联规则相关概念(2)Apriori算法2.难点:序列模式挖掘【教学方法】1.通过多媒体课件和传统教学相结合,阐明课程与教学基本原理,丰富学生课程与教学的基本知识结构,培养学生的职业规范;2.通过案例分析,强调理论与实践相结合,促进学生知识整合,培养学生的反思能力。
第五章分类与预测【教学内容】5.1 分类与决策树概述1.分类和预测数据分析形式介绍2.决策树概述5.2 ID3、C4.5与C5.0算法及应用1. 信息熵计算2. 决策树归纳策略3. ID3算法及缺点4. C4.5算法5.C5.0算法及优点6. 在Clementine中应用C5.05.3 二项Logistic回归分析5.4二项Logistic回归分析应用【学习目标】分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。
预测可以涉及数据值预测和类标记预测,但预测通常指值预测。
两者的区别是,分类是用来预测数据对象的类标记,而预测则是估计某些空缺或未知值。
分类与预测在数据挖掘中是一项非常重要的方面,本章对分类与预测的基本概念与步骤、经典的方法以及有关的问题进行了阐述。
要求学生掌握以下内容:分类和预测数据分析形式1.ID3算法2.C4.5算法3.Logistic回归分析【重点、难点】1.重点:(1)决策树概述(2)ID3算法(3)C4.5算法2.难点:Logistic回归分析【教学方法】1.通过多媒体课件和传统教学相结合,阐明课程与教学基本原理,丰富学生课程与教学的基本知识结构,培养学生的职业规范;2.通过案例分析,强调理论与实践相结合,促进学生知识整合,培养学生的反思能力。
第六章聚类分析【教学内容】6.1 聚类分析的一般问题1.聚类分析介绍2.聚类分析应用领域3. 聚类分析原理4. 主要聚类方法分类6.2 Clementine的k-means聚类及应用1. k-means算法2. k-means算法的优缺点3. 在Clementine中应用k-means6.3 Clementine的两步聚类及应用1. 两步聚类算法2. Clementine的两步聚类应用【学习目标】聚类是将数据分类到不同的类或者簇的过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。
聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
聚类是数据挖掘技术中一个重要组成部分,内容很多,因此要求学生掌握聚类分析原理、基本方法和主要算法。
【重点、难点】2.重点:(1)聚类分析原理(2)主要聚类方法分类2.难点:Clementine操作基础【教学方法】1.通过多媒体课件和传统教学相结合,阐明课程与教学基本原理,丰富学生课程与教学的基本知识结构,培养学生的职业规范;2.通过案例分析,强调理论与实践相结合,促进学生知识整合,培养学生的反思能力。
五、考核方式及成绩评定1.考核方式:课程考核方式分为过程考核(平时考核)和课终考核(期末考核)。
过程考核(平时考核)方式包括课堂表现、平时作业、阶段性测试、调研报告等;课终考核(期末考核)采用考查。
2.总成绩评定:总成绩=过程成绩(平时成绩)*50%+课终成绩(期末成绩)*50%(其中过程成绩的占比由课程组根据课程实际提出并报二级学院决定)3.过程成绩(平时成绩)评定:(1)课堂表现(5 %):学生主动参与课堂练习、讨论,创造性地提出问题的能力;(2)作业完成情况(10 %):学生平时作业提交次数及完成质量;(3)阶段性测验(10 %):学生在平时测试、测验中掌握课程的情况;(4)研究报告(10 %):学生收集资料能力,研究设计能力,解决实际问题能力和合作研究能力;(5)实践教学(10 %);(6)考勤(5 %)。
4.期末考试:期末考试主要考察对基本概念、操作程序和具体方法的理解与运用等。
六、建议教材和主要参考书目(一)建议教材《基于Clementine的数据挖掘》,薛薇陈欢歌主编,中国人民大学出版社,2012-3第一版(二)参考书目1.《数据挖掘:概念与技术》,(美)韩家炜(Han,J.)等著,范明等译。
机械工业出版社,2012年第8月七、其它说明(一)课程实践环节及基本要求见《数据挖掘技术》实验教学大纲(二)课程资源通过互联网查阅相关学习资料(三)其他1.制定依据:依据2019年物联网工程专业人才培养方案制定。
2.执行对象:从2019级学生开始执行。
执笔人(签字):参与人(签字):二级学院审核(签字):学校审批(签字):年月日。