当前位置:文档之家› 《大数据分析与挖掘》课程教学大纲

《大数据分析与挖掘》课程教学大纲

《大数据分析与挖掘》课程教学大纲一、课程基本信息课程代码:16054103课程名称:大数据分析与挖掘英文名称:Big data analysis and mining课程类别:专业选修课学时:48(理论课:32, 实验课:16)学 分:3适用对象: 软件工程专业、计算机科学与技术考核方式:考查先修课程:多媒体技术、程序设计、软件工程二、课程简介本课程从大数据挖掘分析技术实战的角度,结合理论和实践,全方位地介绍基于Python语言的大数据挖掘算法的原理与使用。

本课程涉及的主题包括基础篇和实战篇两部分, 其中基础篇包括:数据挖掘基础,Python数据分析简介,数据探索,数据预处理和挖掘建模;实战篇包括:电力窃漏电用户自动识别,航空公司客户价值分析,中医证型关联规则挖掘,基于水色图像的水质评价,家用电器用户行为分析与事件识别,应用系统负载分析与磁盘容量预测和电子商务网站用户行为分析及服务推荐。

本课程不是一个泛泛的理论性、概念性的介绍课程,而是针对问题讨论基于Python语言机器学习模型解决方案的深入课程。

教师对于上述领域有深入的理论研究与实践经验,在课程中将会针对这些问题与学员一起进行研究,在关键点上还会搭建实验环境进行实践研究,以加深对于这些解决方案的理解。

通过本课程学习,目的是让学生能够扎实地掌握大数据分析挖掘的理论与应用。

This course introduces the principle and application of big data mining algorithm based on Python language comprehensively from the perspective of big data mining analysis technology practice, combining theory and practice. This course covers two parts, the basic part and the practical part. The basic part includes: basic data mining, introduction to Python data analysis, data exploration, data preprocessing and mining modeling. Practical article included: electric power leakage automatic identification of the user, airlines customer value analysis, TCM syndrome association rule mining, based on water quality evaluation of color image, household electrical appliancesuser behavior analysis and event identification, load analysis and application system disk capacity prediction and e-commerce website user behavior analysis and recommendation service.This course is not a general theoretical, conceptual introduction, but rather an in-depth discussion of problem solving based on the Python language machine learning model. Teachers have in-depth theoretical research and practical experience in the above areas. In the course, they will study these problems together with students, and build experimental environment for practical research on key points to deepen their understanding of these solutions. Through the study of this course, students are expected to master the application of big data analysis and mining.三、课程性质与教学目的本课程是软件工程和计算机科学与技术专业的选修课。

大数据分析与挖掘是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值关系、模式和趋,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。

大数据分析作为大数据时代的核心技术,必将成为高校数学、计算机等专业的重要课程之一。

通过学习本课程,要求学生达到:1.掌握大数据分析的基本理论、技术。

2.掌握目前大数据分析典型的应用场景。

3.掌握如何分析数据、解决问题、完成相关研究的方法。

4.具有创新和独立思考意识。

四、教学内容及要求基础篇第一章 数据挖掘基础(一)目的与要求1.掌握数据挖掘的基本概念;2.理解数据挖掘的基本任务;3.了解数据挖掘的操作过程;(二)教学内容第一节:某知名连锁餐饮企业的困惑。

第二节:从餐饮服务到数据挖掘。

第三节:数据挖掘的基本任务。

第四节:数据挖掘建模过程。

1.定义挖掘目标2.数据取样3.数据探索4.数据预处理5.数据建模6.模型评价第五节:常用的数据挖掘建模工具。

(三)重点与难点重点:数据挖掘的基本任务,数据挖掘建模过程。

难点:数据挖掘建模过程。

(四)思考与实践1.什么是数据挖掘?2.数据挖掘的基本任务是什么?3.数据挖掘的基本建模过程是什么?(五)教学方法与手段课堂讲授、多媒体教学。

第二章 Python数据分析简介(一)目的与要求1.掌握 Python平台的搭建;2.掌握Python的基本数据结构;3.了解Python数据分析工具。

(二)教学内容第一节:搭建Python开发平台1.所要考虑的问题;2.基础平台的搭建。

第二节:Python使用入门1.运行方式;2.基本命令;3.数据结构;4.库的导入与添加。

第三节:Python数据分析工具1.Numpy;2.Scipy;3.Matplotlib;4.Pandas;5.StatsModels;6.Scikit-Learn;7.Keras;8.Gensim。

第四节:配套资源使用设置(三)重点与难点重点:搭建Python开发平台,Python数据分析工具。

难点:Python数据分析工具。

(四)思考与实践1.不同的操作系统在搭建Python平台时,有何不同?2.Python的2.X版本与3.X版本的异同?(五)教学方法与手段课堂讲授、多媒体教学。

第三章 数据探索(一)目的与要求1.掌握数据质量分析工具;2.掌握数据特征分析工具;3.了解Python主要探索函数。

(二)教学内容第一节:数据质量分析1.缺失值分析;2.异常值分析;3.一致性分析。

第二节:数据特征分析1.分布分析;2.对比分析;3.统计量分析;4.周期性分析;5.贡献度分析6.相关性分析。

第三节:Python主要数据探索函数1.基本统计特征函数;2.拓展统计特征函数;3.统计作图函数。

(三)重点与难点重点:数据质量分析,数据特征分析;难点:数据特征分析。

(四)思考与实践1.脏数据包含哪些情况?2.分布分析、对比分析、统计量分析、周期性分析、贡献度分析和相关性分析分别是什么?它们有何作用?。

(五)教学方法与手段课堂讲授、多媒体教学。

第四章 数据预处理(一)目的与要求1.掌握数据清洗方法;2.掌握数据集成方法;3.数据数据变换方法;4.了解数据规约。

(二)教学内容第一节:数据清洗1.缺失值处理;2.异常值处理。

第二节:数据集成1.实体识别;2.冗余属性识别。

第三节:数据变换1.简单函数变换;2.规范化;3.连续属性离散化;4.属性构造;5.小波变换。

第四节:数据规约1.属性规约;2.数值规约。

第五节:Python主要数据预处理函数(三)重点与难点重点:数据清洗,数据变换。

难点:数据清洗和数据变换。

(四)思考与实践1.有哪些常用的数据清洗方法?2.常用的数据变换方法是什么?。

(五)教学方法与手段课堂讲授、多媒体教学。

第五章 挖掘建模(一)目的与要求1.理解分类与回归预测算法;2.理解聚类分析算法;3.理解时间序列处理算法的原理;4.掌握离群点检测算法。

(二)教学内容第一节:分类与预测1.实现过程;2.常用的分类与预测算法;3.回归分析;4.决策树;5.人工神经网络;6.分类与预测算法评价;7.Python分类预测模型特点。

第二节:聚类分析1.常用聚类分析算法;2.K-Means聚类算法;3.聚类分析算法评价;4.Python主要聚类分析算法。

第三节:关联规则1.常用关联规则算法;2.Apriori算法。

第四节:时序模式1.时间序列算法;2.时间序列的预处理;3.平稳时间序列分析;4.非平稳时间序列分析;5.Python主要时序模式算法。

第五节:离群点检测1.离群点检测方法;2.基于模型的离群点检测方法;3.基于聚类的离群点检测方法。

(三)重点与难点重点:分类和回归预测算法,关联规则算法和时间序列算法。

难点:机器学习的原理为本章的难点。

(四)思考与实践1.什么是有监督模型?2.什么是无监督项目?3.机器学习算法的应用场景有哪些?(五)教学方法与手段课堂讲授、多媒体教学、上机实验。

实战篇第六章:电力窃漏电用户自动识别(一)目的与要求1.掌握分类算法在实际应用中的使用。

(二)教学内容第一节:背景与挖掘目标第二节:分析方法与过程1.数据抽取;2.数据探索分析;3.数据预处理;4.构建专家样本;5.模型构建;6.上机实验。

(三)重点与难点重点:背景与挖掘目标,模型构建。

难点:模型构建。

(四)思考与实践1.其它领域,如汽车销售行业在税收上也存在少开发票金额、少计收入等问题,如果使用数据挖掘方法识别偷漏税的纳税人?(五)教学方法与手段课堂讲授、多媒体教学、上机实验。

第七章 航空公司客户价值分析(一)目的与要求1.掌握聚类算法在实际应用中的使用。

(二)教学内容第一节:背景与挖掘目标第二节:分析方法与过程1.数据抽取;2.数据探索分析;3.数据预处理;4.模型构建。

相关主题