当前位置:文档之家› 教学大纲_数据挖掘(高妮20160722)

教学大纲_数据挖掘(高妮20160722)

课程代码:0500301 《数据挖掘》教学大纲Data Mining执笔人:高妮审核人:批准人:《数据挖掘》教学大纲[理论教学内容与要求]第一章绪论[教学目的] 使学生对数据挖掘有一个初步、总体的认识。

[重点难点] 本章节的重点是数据挖掘的定义,难点是它的基本步骤、主要技术和应用价值,如何激发学生对数据挖掘应用的领域及成功案例的兴趣。

[教学时数] 2(教学)[教学内容] 应用背景、数据挖掘定义、主要技术、主要研究内容、面临的主要问题等。

第1节应用背景1 商业上的驱动2 科学研究上的驱动3 数据挖掘伴随着数据库技术而出现第2节什么是数据挖掘1 基本描述2 关于知识发现第3节数据挖掘的主要技术第4节数据挖掘的主要研究内容第5节数据挖掘面临的主要问题第6节数据挖掘相关的资料第7节本书的总体章节安排[练习题]1.数据仓库与数据库有何不同?它们有哪些相似之处?2.与挖掘少量数据相比,挖掘海量数据的主要挑战是什么?第二章数据预处理[教学目的] 使学生掌握数据的清理、集成和变换等预处理的基本方法。

[重点难点] 本章节重点是数据的基本处理方法,难点是处理方法的应用。

确保学生对处理方法的理论尚能掌握,进一步增加实际应用方面的操作。

[教学时数] 3(教学)[教学内容] 数据预处理的基本概念、数据的描述、数据清洗、数据集成和转换和数据归约和变换等。

第1节前言第2节数据预处理的基本概念1 数据的基本概念2 为什么要进行数据预处理3 数据预处理的任务第3节数据的描述1 描述数据的中心趋势2 描述数据的分散程度3 描述数据的其他方式第4节数据清洗1 数据缺失的处理2 数据清洗第5节数据集成和转换1 数据集成2 数据冗余性3 数据转换第6节数据归约和变换1 数据归约2 数据离散化3 概念层次生成[练习题]1.数据质量可以从多方面评估,包括准确性、完整性和一致性问题。

对于以上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。

2.讨论数据集成需要考虑的问题。

第三章数据仓库[教学目的] 使学生掌握数据仓库的定义、多维数据模型和OLAP技术。

[重点难点] 本章节的重点是数据仓库的定义,难点是数据仓库的存储结构模式,概念分层的理解,以及数据仓库的设计,要确保学生能较好地掌握,还需课后多查看一些相关的资料。

[教学时数] 3(教学)[教学内容]数据库基本概念、数据仓库的定义、多维数据模型、数据仓库结构和功能、OLAP技术、数据仓库应用等。

第1节前言第2节数据库基本概念回顾1 数据库简介2 表、记录和域3 数据库管理系统第3节数据仓库简介1 数据仓库特点2 数据仓库概念3 数据仓库作用4 数据仓库与DBMS对比5 分离数据仓库的原因第4节多维数据模型1 数据立方体2 概念模型3 概念分层4 典型OLAP操作第5节数据仓库结构1 数据仓库设计2 多层体系结构第6节数据仓库的功能1 数据立方体的有效计算2 索引OLAP数据3 OLAP查询的有效处理第7节从数据仓库到数据挖掘1 数据仓库应用2 从OLAP到[练习题]1.简略比较一下概念:(1)数据清理、数据变换、刷新。

(2)发现驱动的立方体、多特征立方体、虚拟立方体。

2.列举三种流程的数据仓库建模模式。

第四章相关性与关联规则[教学目的] 了解需求管理的模型和流程;掌握需求获取、确认和控制的基本方法,理解变更控制的重要性。

[重点难点] 本章节重点是关联规则的挖掘,难点是Apriori算法的应用。

[教学时数] 3(教学)+4(实验一、二)[教学内容] 基本概念、频繁项集挖掘方法、多种关联规则挖掘、从关联分析到相关分析、基于约束的频繁模式挖掘等。

第1节基本概念1 潜在的应用2 购物篮问题3 频繁模式分析、闭项集和关联规则第2节频繁项集挖掘方法1 Apriori算法2 由频繁项集产生关联规则3 提高Apriori的效率第3节多种关联规则挖掘1 挖掘多层关联规则2 挖掘多维关联规则3 挖掘量化关联规则第4节从关联分析到相关分析1 相关分析2 强规则不一定是有价值的3 挖掘高度关联的模式第5节基于约束的频繁模式挖掘1 关联规则的元规则制导挖掘2 基于约束的模式生成: 模式空间剪枝和数据空间剪枝[练习题]1.简述关联规则挖掘步骤。

2.简述Apriori算法基本思想。

第五章分类和预测[教学目的] 使学生了解并掌握决策树、贝叶斯分类、神经网络、支持向量机等分类和预测算法。

[重点难点] 本章节重点是分类和预测方法的概念,难点是几种主要的分类算法的应用和实现。

[教学时数] 4(教学)+8(实验三、四、五、六)[教学内容] 分类和预测的基本概念、评价,决策树分类、朴素贝叶斯分类、神经网络、支持向量机、分类准确率等。

第1节前言第2节基本概念1 什么是分类2 什么是预测第3节关于分类和预测的问题1 准备分类和预测的数据2 评价分类和预测方法第4节决策树分类1 决策树归纳2 属性选择度量3 提取分类规则4 基本决策树归纳的增强5 在大数据集中的分类第5节贝叶斯分类1 贝叶斯定理2 朴素贝叶斯分类3 贝叶斯信念网络4 贝叶斯网络学习第6节神经网络1 神经网络简介2 多层神经网络3 神经网络训练4 后向传播5 网络剪枝和规则抽取第7节支持向量机1 数据线性可分的情况2 数据线性不可分的情况3 支持向量机和神经网络的对比第8节关联分类1 为什么有效2 常见关联分类算法第9节分类准确率1 估计错误率2 装袋和提升[练习题]1.简述决策树分类的主要步骤。

2.为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。

第六章聚类分析[教学目的] 使学生了解并掌握聚类分析的主要算法。

[重点难点] 本章节重点是聚类分析的概念,难点是几种主要的聚类分析算法的应用和实现。

[教学时数] 3(教学)+6(实验七、八、九)[教学内容] 聚类分析的定义和数据类型,流聚类方法分类与相似性质量,基于分割、层次、密度、网络和模型的聚类等。

第1节聚类分析的定义和数据类型1 聚类的定义2 聚类分析和主要应用3 聚类分析方法的性能指标4 聚类分析使用的数据类型第2节流聚类方法分类与相似性质量1 聚类分析方法分类2 连续变量的距离与相似性度量3 二元变量与标称变量的相似性度量4 序数和比例标度变量的相似性度量5 混合类型变量的相似性度量第3节基于分割的聚类第4节基于层次的聚类第5节基于密度的聚类第6节基于网格的聚类第7节基于模型的聚类第8节离群点检测[练习题]1.简略介绍如下聚类方法:基于分割的方法、层基于次的方法、基于密度的方法。

[实验教学内容与要求]实验一:安装R和操作[实验目的] 了解R软件的安装流程,利用R中的基本数学函数处理一些简单数据,通过对基本数学函数的操作了解R语言的基本操作过程,从而对R语言形成初步的认识。

[实验要求] 掌握利用R语言实现数据读取功能的程序编写;按照既定格式书写实验报告。

[实验时数] 2[实验内容]安装R软件、熟悉菜单,并安装程序包、调用程序包、查看程序包的帮助。

实现读取Excel数据并另存为.txt文件的功能。

实验二:关联规则挖掘(Apriori算法)[实验目的] 了解关联规则、频繁项集、闭项集和关联规则等概念。

[实验要求] 掌握关联规则算法的基本思想,熟悉Apriori算法的应用;按照既定格式书写实验报告。

[实验时数] 2[实验内容] 使用R语言程序实现Apriori算法,挖掘关联知识。

实验三:决策树分类(C4.5算法或ID3算法) [实验目的] 了解决策树归纳、属性选择度量、提取分类规则等概念。

[实验要求] 掌握决策树分类算法的基本思想,熟悉C4.5算法或ID3算法的应用;按照既定格式书写实验报告。

[实验时数] 2[实验内容] 使用R语言程序实现C4.5或ID3算法。

实验四:贝叶斯分类(NB算法)[实验目的] 了解贝叶斯定理、朴素贝叶斯分类、贝叶斯信念网络等概念。

[实验要求] 掌握朴素贝叶斯分类算法的基本思想,熟悉NB算法的应用。

[实验时数] 2[实验内容] 使用R语言程序实现NB算法。

实验五:神经网络分类(BP算法)[实验目的] 了解神经网络、多层神经网络、后向传播、网络剪枝等概念。

[实验要求] 掌握神经网络分类算法的基本原理,熟悉BP算法的应用;按照既定格式书写实验报告。

[实验时数] 2[实验内容] 使用R语言程序实现BP算法。

实验六:支持向量机分类(SVM算法)[实验目的] 了解数据线性可分、数据线性不可分的概念,能区别支持向量机和神经网络分类的差异性。

[实验要求] 掌握支持向量机分类算法的基本原理,熟悉SVM算法的应用;按照既定格式书写实验报告。

[实验时数] 2[实验内容] 使用R语言程序实现SVM算法。

实验七:基于分割的聚类(K-means算法)[实验目的] 了解距离、相似度等概念。

[实验要求] 掌握基于分割的聚类算法的基本原理,熟悉K-means算法的应用;按照既定格式书写实验报告。

[实验时数] 2[实验内容] 使用R语言程序实现K-means算法。

实验八:基于层次的聚类(AGNES算法)[实验目的] 了解凝聚的层次聚类方法、分裂的层次聚类方法、树状图、连接度量等概念。

[实验要求] 掌握基于层次的聚类算法的基本原理,熟悉AGNES算法的应用;按照既定格式书写实验报告。

[实验时数] 2[实验内容] 使用R语言程序实现AGNES算法。

实验九:基于密度的聚类(DBSCAN算法)[实验目的] 了解邻域密度、核心对象、离群点、密度可达和密度相连等概念。

[实验要求] 掌握基于密度的聚类算法的基本原理,熟悉DBSCAN算法的应用;按照既定格式书写实验报告。

[实验时数] 2[实验内容] 使用R语言程序实现DBSCAN算法。

[考核方式]本课程考试课程,考核成绩由: 平时考核(20%)+实验(20%)+期末考核(60%)构成。

(一)平时成绩20%根据学生上课出勤情况、课堂表现、回答问题情况给出平时考核成绩,对于缺席3次以上者,取消期末考核资格。

(二)实验20%根据学生在实验课程中提交的实验报告情况给出实验考核成绩。

(三)课程论文60%考试选择实际的数据,考察学生对基本数据挖掘方法的掌握以及应用能力。

该部分成绩由学生期末提交的论文情况综合给出。

其中论文成绩主要考核论文的完整性、创新性、研究深度、格式规范性等。

相关主题