《Python数据分析与应用》教学大纲课程名称:Python数据分析与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论36学时,实验28学时)总学分:4.0学分一、课程的性质大数据时代已经到来,在商业、经济及其他领域中基于数据和分析去发现问题并做出科学、客观的决策越来越重要。
数据分析技术将帮助企业用户在合理时间内获取、管理、处理以及整理海量数据,为企业经营决策提供积极的帮助。
数据分析作为一门前沿技术,广泛应用于物联网、云计算、移动互联网等战略新兴产业。
有实践经验的数据分析人才已经成为了各企业争夺的热门。
为了推动我国大数据,云计算,人工智能行业的发展,满足日益增长的数据分析人才需求,特开设Python数据分析与应用课程。
二、课程的任务通过本课程的学习,使学生学会使用Python进行科学计算、可视化绘图、数据处理,分析与建模,并详细拆解学习聚类、回归、分类三个企业案例,将理论与实践相结合,为将来从事数据分析挖掘研究、工作奠定基础。
三、课程学时分配序号教学内容理论学时实验学时其它1 第1章Python数据分析概述212 第2章NumPy数值计算基础223 第3章Matplotlib数据可视化基础224 第4章pandas统计分析基础345 第5章使用pandas进行数据预处理346 第6章使用sklearn构建模型647 第7章航空公司客户价值分析648 第8章财政收入预测分析63第9章家用热水器用户行为分析与964事件识别总计3628四、教学内容及学时安排1. 理论教学序章节名称主要内容教学目标学时号1 Python数据分析概述1. 掌握数据分析的概念2. 掌握数据分析的流程3. 了解数据分析的应用场景4. 了解数据分析的常用工具5. 了解Python数据分析的优势6. 了解Python数据分析的常用类库7. 了解Python的Anaconda发行版8. 在Windows操作系统上安装Anaconda9. 在Linux系统上安装Anaconda10. 掌握Jupyter Notebook的基础功能11. 掌握Jupyter Notebook的高级功能1. 掌握数据分析的概念、流程与应用场景2. 了解Python常用的数据分析库3. 掌握Windows /Linux系统下Anaconda安装4. 掌握JupyterNotebook的常用功能22 NumPy数值计算基础1. 创建数组对象2. 生成随机数3. 通过索引访问数组4. 变换数组的形态5. 创建NumPy矩阵6. 掌握ufunc函数7. 读写文件8. 使用数组进行简单的统计分析1. 掌握NumPy创建多维数组与生成随机数的方法2. 掌握数组的索引与变换3. 掌握NumPy中数组矩阵的运算及通用函数的基本使用方法4. 掌握NumPy读写文件的方法和常用的统计分析的函数23 Matplotlib数据可视化基础1. 掌握pyplot的基础语法2. 设置pyplot的动态rc参数3. 绘制散点图4. 绘制折线图5. 绘制直方图6. 绘制饼图7. 绘制箱线图1. 掌握pyplot常用的绘图参数的调节方法2. 掌握子图的绘制方法3. 掌握绘制图形的保存与展示方法4. 掌握散点图和折线图的作用与绘制方法5. 掌握直方图、饼图和箱线图的作用与绘制方法24 pandas统计分析基础1. 读写数据库数据2. 读写文本文件3. 读写Excel文件4. 查看DataFrame的常用属性5. 查改增删DataFrame数据6. 描述分析DataFrame数据7. 转换字符串时间为标准时间8. 提取时间序列数据信息9. 加减时间数据10. 使用groupby方法拆分数据11. 使用agg方法聚合数据12. 使用apply方法聚合数据13. 使用transform方法聚合数据14. 使用povit_table函数创建透视表15. 使用crosstab函数创建交叉表1. 掌握常见的数据读取方式2. 掌握DataFrame常用属性与方法3. 掌握基础时间数据处理方法4. 掌握分组聚合的原理与方法5. 掌握透视表与交叉表的制作35 使用pandas进行数据预处理1. 堆叠合并数据2. 主键合并数据3. 重叠合并数据4. 检测与处理重复值5. 检测与处理缺失值6. 检测与处理异常值7. 离差标准化数据8. 标准差标准化数据9. 小数定标标准化数据10. 哑变量处理类别型数据11. 离散化连续型数据1. 掌握数据合并的原理与方法2. 掌握数据清洗的基本方法3. 掌握基本数据标准化的方法4. 掌握常用的数据转换方法36 使用scikit-learn构建模型1. 加载datasets模块中的数据集2. 将数据集划分为训练集和测试集3. 使用sklearn转换器进行数据预处理与降维4. 使用sklearn估计器构建聚类模型5. 评价聚类模型6. 使用sklearn估计器构建分类模型7. 评价分类模型8. 使用sklearn估计器构建回归模型9. 评价回归模型1. 掌握sklearn转换器的使用方法2. 掌握sklearn估计器的使用方法3. 掌握聚类模型的构建与评价4. 掌握分类模型的构建与评价5. 掌握回归模型的构建与评价67 航空客户价值分析1. 分析航空公司现状2. 认识客户价值分析3. 熟悉航空客户价值分析的步骤与流程4. 处理缺失值与异常值5. 构建爱你航空客户价值分析关键特征6. 标准化LRFMC 5个特征7. 了解K-Means聚类算法8. 分析聚类结果9. 模型应用1. 熟悉航空客户价值分析的步骤和流程2. 了解RFM模型的基本原理3. 掌握K-Means算法的基本原理与使用方法4. 比较不同类别客户的客户价值,制定相应的营销策略68 财政收入预测分析1. 分析财政收入预测背景2. 了解财政收入预测的方法3. 熟悉财政收入预测的步骤与流程4. 了解相关性分析5. 分析计算结果6. 了解Lasso回归方法7. 分析Lasso回归结果8. 了解灰色预测算法9. 了解SVR算法10. 分析预测结果1. 熟悉财政收入预测的步骤和流程2. 掌握相关性分析方法与应用3. 掌握使用Lasso模型选取特征的方法4. 掌握灰色预测的原理与应用5. 掌握支持向量回归算法的基本原理与应用69 家用热水器用户行为分析与事件识别1. 分析家用热水器行业现状2. 了解热水器采集数据的基本情况3. 熟悉家用热水器用户行为分析的步骤与流程4. 删除冗余特征5. 划分用水事件6. 确定单次用水事件时长阈值7. 构建用水时长与频率特征8. 了解灰色预测算法9. 构建用水量与波动特征10. 筛选候选洗浴事件11. 了解BP神经网络算法原理12. 构建模型13. 评估模型1. 熟悉家用热水器用户行为分析的步骤与流程2. 掌握用水事件划分原理及与方法3. 掌握阈值寻优的原理和方法4. 熟悉用水行为特征构建的原理与方法5. 了解BP神经网络算法的基本原理6. 掌握使用sklearn神经网络算法构建6学时合计36 2. 实验教学序号实验项目名称实验要求学时1Python数据分析环境搭建在Windows/Linux系统上安装Anaconda;掌握Jupyter Notebook的常用功能12NumPy数值计算基础创建NumPy数组对象ndarray;查看ndarray的常用属性;花式索引ndarray;变换ndarray的形态;创建NumPy矩阵并使用;使用常见ufunc;使用NumPy读写文件23Matplotlib数据可视化基础掌握pyplot的基本绘图语法;设置pyplot的动态rc参数;绘制散点图;绘制折线图;绘制直方图;绘制饼图;绘制箱线图24pandas统计分析基础读写数据库数据;读写文本文件;读写Excel文件;查看DataFrame的常用属性;查改增删DataFrame数据;描述分析DataFrame数据;转换字符串时间为标准时间;提取4时间序列数据信息;加减时间数据;使用groupby方法拆分数据;使用agg,apply,transform方法聚合数据;制作透视表;制作交叉表5pandas数据预处理堆叠、主键、重叠合并数据;检测与处理重复值,缺失值,异常值;离差标准化、标准差标准化;小数定标标准化数据;哑变量处理类别型数据;离散化连续型数据46sklearn模型构建加载datasets模块自带数据集;划分数据集;使用sklearn转换器进行数据预处理与降维;构建与评价聚类模型;构建与评价分类模型;构建与评价回归模型47航空公司客户价值分析处理数据缺失值与异常值;构建航空客户价值分析的关键特征;标准化LRFMC 5个特征;构建K-Means聚类模型;评价K-Means聚类模型48财政收入预测分析分析财政收入数据特征的相关性;使用Lasso回归选取财政收入预测的关键特征;使用灰色预测和SVR构建财政收入预测模型;评价SVR模型39 家用热水器用户行为分析与事件识别删除冗余特征;划分用水事件;确定单次用水事件的时长阈值;构建用水行为特征;筛选候选洗浴事件;构建BP神经网络模型;评价BP神经网络模型4学时合计28五、考核方式突出学生解决实际问题的能力,加强过程性考核。
课程考核的成绩构成= 平时作业(10%)+ 课堂参与(20%)+ 期末考核(70%),期末考试建议采用开卷形式,试题应包括基本概念、绘图、分组聚合、数据合并、数据清洗、数据变换、模型构建等部分,题型可采用判断题、选择、简答、应用题等方式。
六、教材与参考资料1. 教材Python数据分析与应用。