《数据分析》课程教学大纲
课程代码:090141122
课程英文名称:Data analysis
课程总学时:32 讲课:32 实验:0 上机:0
适用专业:信息与计算科学
大纲编写(修订)时间:2017.11
一、大纲使用说明
(一)课程的地位及教学目标
本课程是信息与计算科学专业的一门专业必修课,通过本课程的学习,可以使学生获得分析和处理数据的理论与方法,能够从大量数据中揭示其隐含的内在规律、发掘有用的信息、进行科学的推断与决策。
本课程为学生学习新知识和后续开设的《大数据算法》、《数据挖掘》等课程打下良好的基础。
(二)知识、能力及技能方面的基本要求
1 知识方面的基本要求
通过本科程的学习,使学生掌握:
1)要求学生了解数据分析的基本内容及应用领域,学会如何对已获取的数据进行加工处理,如何对实际问题进行定量分析,以及如何解释分析的结果;
2)掌握几种常用数据分析方法的统计思想及基本步骤,且能够利用统计软件,较熟练地解决实际问题中的数据分析问题。
2 能力方面的基本要求
通过各个教学环节逐步培养学生的抽象思维能力、逻辑推理能力和自学能力,培养学生综合运用所学知识去分析解决实际问题的意识和能力。
3 技能方面的基本要求
通过本课程的学习,使学生
1)对于已获得的数据,能够通过相应的统计软件描述数据的分布及其数字特征;
2)能够建立线性回归模型分析和预测;
3)能比较不同数据之间的差异,并且能够进行分类、判别;
4)能利用主成分方法处理高维数据;
5)能够建立模型对数据进行分析和预测。
(三)实施说明
1 本大纲主要依据信息与计算科学专业2017-2020版教学计划、信息与计算科学专业建设和特色发展规划和沈阳理工大学编写本科教学大纲的有关规定并根据我校实际情况进行编写的。
2 课时分配仅供参考。
3 建议本课程采用课堂讲授、讨论相结合的方法和采用多媒体等现代化手段开展教学,通过习题课和讨论等方式强化重点,通过分散难点,使学生循序渐进的掌握难点。
(四)对先修课的要求
本课的先修课程:概率论与数理统计。
(五)对习题课、实践环节的要求
1 对习题课的要求:建议安排2次共计4学时的习题课。
第一次习题课在主成分分析理论课之后安排2学时。
复习内容为数据的描述性分析、回归分析、方差分析、主成分分析的理论及
部分课后习题的处理。
第二次习题课在所有理论课结束之后安排2学时,复习内容为判别分析、聚类分析的相关理论及部分课后习题的处理。
2 对实践环节的要求:本课程安排了课程设计教学环节
(六)课程考核方式
1.考核方式:采用五分制考查方式考核,考核形式为上机考试。
2.考核目标:重点考查学生数据分析的基本理论知识的掌握情况和分析问题解决问题的实践能力
3.成绩构成:本课程的总成绩主要由两部分组成:平时成绩(包括作业情况、出勤情况等)占50%,期末考试成绩占50%。
(七)参考书目
《数据分析》(第二版),梅长林编著,高等教育出版社,2006
《IBM SPSS数据分析与挖掘实战案例精粹》,张文彤,钟云飞著,清华大学出版社,2013 《基于SPSS的数据分析-(第四版)》,薛薇著,中国人民大学出版社,2017
二、中文摘要
《数据分析》是信息与计算科学专业的专业必修课。
本课程共32学时,主要教学内容包括数据的描述性分析、线性回归分析、方差分析、判别分析、主成分分析、聚类分析。
通过本门课程的学习,学生可以初步掌握数据分析处理的基本理论与方法,提高解决实际问题的能力。
使学生熟练掌握《数据分析》的有关基本理论、基本方法和基本技能,培养学生分析问题和解决问题的能力,为学生今后开展初步的科研工作和继续深造提供基本知识。
三、课程学时分配表
四、教学内容及基本要求
第1部分数据描述性分析
总学时(单位:学时):6 讲课:6 实验:0 上机:0
第1.1部分一维数据的数字特征(讲课2学时)
具体内容:
1)要求学生了解数据分析的基本内容及应用领域与作用;
2)掌握数据的数字特征与分布特征的描述与分析,熟练掌握常用的统计量如:样本均值、样本协方差和方差以及样本相关系数等。
第1.2部分数据的分布(讲课2学时)
具体内容:
1)了解常用分布;
2)理解分布的拟合及检验方法。
第1.3部分多维数据的数字特征及相关分析(讲课2学时)
具体内容:
了解多元正态分布及其性质。
重点:
一维数据的数字特征与分布特征的描述与分析;
难点:
高维数据的数字特征的描述与分析。
习题:
一维数据的数字特征计算,画分布图,求相关系数。
第2部分线性回归分析
总学时(单位:学时):6 讲课:6 实验:0 上机:0
第2.1部分线性回归模型及其参数估计(讲课2学时)
具体内容:
1)要求学生了解建立回归方程的基本假设;
2)掌握线性回归模型中参数估计的方法;
3)了解估计的基本性质。
第2.2部分统计推断与统计预测(讲课2学时)
具体内容:
1)理解统计推断的意义;
2)掌握回归方程有关的显著性的检验;
3)会进行相关的统计预测
第2.3部分残差分析、回归方程的选取(讲课2学时)
具体内容:
1)会应用残差分析分析回归模型;
2)掌握回归方程的选取方法,并能运用统计软件实现有关回归过程的分析。
重点:
线性回归模型的建模的步骤;
难点:
逐步回归方法。
习题:
建立线性回归模型,并进行显著性检验,回归变量的选择。
第3部分方差分析
总学时(单位:学时):4 讲课:4 实验:0 上机:0
第3.1部分单因素方差分析(讲课2学时)
具体内容:
1)要求学生了解方差分析的基本思想;
2)掌握单因素方差分析模型及相关的统计推断方法。
第3.2部分两因素等重复试验下的方差分析(讲课2学时)
具体内容:
掌握两因素等重复试验下模方差分析型及相关的统计推断方法。
重点:
两因素方差分析方法;
难点:
有交互作用时的两因素方差分析方法。
习题:
对实际数据进行单因素方差分析,两因素等重复试验下的方差分析等。
第4部分主成分分析
总学时(单位:学时):6 讲课:6 实验:0 上机:0
第4.1部分主成分分析基本思想、数学模型(讲课2学时)
具体内容:
1)要求学生了解主成分分析的统计思想和实际意义;
2)掌握其数学模型和二维空间上的几何意义。
第4.2部分主成分的推导主成分的基本步骤(讲课2学时)
具体内容:
1)熟练掌握主成分的推导步骤及其重要的基本性质;
2)能够利用计算软件,自己解决实际问题并给出分析报告;
3)了解典型相关分析的基本思想,会用典型相关分析方法处理实际问题。
重点:
主成分分析方法的理论及性质;
难点:
主成分的推导步骤及其重要的基本性质。
习题:
对实际数据进行主成分分析,在回归模型中应用主成分分析。
习题课(2学时):
讲授线性回归分析、方差分析和主成分分析相关习题。
第5部分判别分析
总学时(单位:学时):4 讲课:4 实验:0 上机:0
第5.1部分判别分析中所使用的几种判别尺度的定义和基本性质(讲课1学时)具体内容:
1)要求学生理解判别分析的目的和意义、它的统计思想;
2)了解判别分析中常用的几种距离的定义和基本性质。
第5.2部分距离判别法, Bayes判别法(讲课3学时)
具体内容:
1)了解并熟悉判别分析的三种类型,特别是Bayes判别方法的统计思想;
2)掌握教材中给出的不同判别方法的判别规则和判别函数的结构;
3)熟练掌握两总体样本的距离判别法和Bayes判别法的具体计算步骤,并比较其异同;
4)掌握统计软件中的相应程序。
重点:
两总体样本的距离判别法和Bayes判别法的具体计算步骤;
难点:
Bayes判别法。
习题:
对给定的数据利用不同方法给出判别准则,能确定哪个判别准则更合理。
第6部分聚类分析
总学时(单位:学时):6 讲课:6 实验:0 上机:0
第6.1部分距离的定义,快速聚类法(讲课2学时)
具体内容:
1)要求学生了解变量类型的几种距离的定义;
2)理解聚类分析的目的和意义、它的统计思想;
3)熟悉聚类分析常用的距离的定义;
4)掌握快速聚类方法。
第6.2部分谱系聚类法(讲课2学时)
具体内容:
1)了解四种谱系聚类方法,以及它们的统一公式;
2)熟悉软件中最长(短)距离法和重心法的具体使用步骤;
3)能运用聚类分析法及统计软件解决一些实际问题。
重点:
快速聚类法与谱系聚类法;
难点:
1)初始聚点的确定方法;
2)谱系聚类法确定类数。
习题:
对给定的数据进行聚类分析。
习题课(2学时):
讲授聚类分析和判别分析相关习题。